Gia tốc của Big Data

Một người phát triển viết cho tôi: “Em thích blog của thầy về Big Data. Em hiểu khối lượng của Big Data; sự đa dạng của dữ liệu như có cấu trúc và phi cấu trúc, nhưng em không hiểu vấn đề gia tốc – velocity. Xin thầy giải thích.”

Đáp: Có ba yếu tố then chốt của Big Data (Ba chữ V: Volume, Variety và Velocity.) Velocity – gia tốc – nghĩa là dữ liệu thay đổi và tăng trưởng nhanh. Nó ngày càng lớn lên theo thời gian. Chẳng hạn, mọi người thêm dữ liệu vào trong websites của họ mọi lúc và nó tăng lên nhanh chóng. Các giao tác thị trường chứng khoán chuyển hàng tỉ hay nghìn tỉ đô la cứ vài giây. Các cảm biến thời tiết đo thay đổi về nhiệt độ cứ vài phút. YouTube thêm các luồng video cứ năm phút một. Không chỉ những dữ liệu này yêu cầu bộ nhớ lưu giữ khổng lồ mà nó thay đổi nhanh thế và làm cho việc phân tích thành khó thế. Bạn phải thu thập và phân tích nhữn dữ liệu này theo “thời gian thực” nếu không nó mất nghĩa. Chẳng hạn, nếu bạn giám sát xu hướng thị trường chứng khoán dựa trên dữ liệu ngày hôm qua thì bạn có thể bỏ lỡ cái gì đó do thông tin “lạc hậu” của bạn.

Thách thức của Big Data, không chỉ ở tính lớn khổng lồ, với đủ mọi kiểu dữ liệu, nhưng nó cũng thay đổi rất nhanh. Nếu bạn không thể thu thập, kiểm soát, phân tích và ra quyết định về nó thì ai đó sẽ làm. Trong kinh doanh cạnh tranh toàn cầu này, đó là khác biệt giữa người thắng và kẻ thua. Các nhà phân tích dữ liệu lớn phải hỏi những câu hỏi này: Chúng ta phân tích các dữ liệu này thường xuyên thế nào? Cứ mười phút? Hàng giờ? Hay hàng ngày? Khi nào dữ liệu là không hợp thức? Chúng ta sẽ làm gì với dữ liệu lạc hậu? Làm sao chúng ta biết?

English version

Full article: Velocity of Big Data

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Xu hướng công nghệ
  • Biên tập: Kipkis.com
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University
"Like" us to know more!