Big Data và Gia tốc

Một sinh viên hỏi: “Em hiểu rằng Big Data là về thu thập “đa dạng” dữ liệu theo “khối lượng” lớn nhưng tại sao chúng ta cần nó thật nhanh? “Gia tốc” có liên quan gì tới Big Data? Xin thầy giải thích.”

Đáp: Big Data là công nghệ mới và cách mới để làm kinh doanh điều có thể thêm nhiều ưu thế có giá trị. Nó hội tụ vào thu thập dữ liệu từ các khối lượng rất lớn của đa dạng rộng dữ liệu từ nhiều nguồn bằng việc tạo khả năng thu thập gia tốc cao để trích rút thông tin có giá trị và phân tích chúng để tạo ra ưu thế doanh nghiệp. Ngày nay các công ti trên khắp thế giới đang kích động về việc tìm ra những cách mới để trích rút khối lượng và sự đa dạng dữ liệu từ các phương tiện xã hội, thiết bị di động, các cảm biến, và các ứng dụng khác. Tuy nhiên nhiều người vẫn gặp vấn đề với gia tốc hay nhịp độ theo đó dữ liệu có thể được thu thập, tổ chức và phân tích để tạo ra sáng suốt làm cho các nhà lãnh đạo doanh nghiệp có thể hành động nhanh chóng để phát sinh giá trị doanh nghiệp tức thì.

Nhu cầu về tốc độ trong Big Data là quan trọng bởi vì mọi thứ xảy ra nhanh. Nếu một ngân hàng thu thập thông tin để phát hiện món vay xấu nhưng thấy chúng sáu tuần sau khi cho vay nhiều khoản vay thì điều đó là quá trễ để làm cái gì đó về việc đó. Thông tin được thu thập KHÔNG còn giá trị nữa. Ngân hàng cần gia tốc để cho nó có thể nhận diện khoản vay xấu trong khi xử lí việc xin vay chứ không phải sau điều đó. Cùng điều đó xảy ra khi những người kinh doanh thị trường chứng khoán cần ra quyết định về mua hay bán khi thị trường chứng khoán lên hay xuống, chậm vài phút có thể có nghĩa là họ phải trả giá cao hơn hay bán với giá thấp hơn và điều đó có nghĩa là mất ưu thế.

Trong thị trường thay đổi nhanh chóng này, tốc độ là rất quan trọng. Vì dữ liệu thường lưu trong cơ sở dữ liệu mà cần thời gian để tìm kiếm và cập nhật và điều đó có thể là quá trễ. Có công nghệ mới có thể làm cho mọi sự xảy ra nhanh hơn như tính toán trong bộ nhớ, sẽ giúp cắt bớt thời gian cần để truy nhập, truy lục, cập nhật và phân tích thông tin tới vài giây bởi vì dữ liệu ở trong máy tính nơi nó dễ dàng trích rút ra thay vì lưu giữ chúng trên đĩa cứng điều cần thời gian tìm và truy lục.

Tất nhiên, công nghệ chỉ là một phần của hệ thống. Các công ti cần các nhà khoa học dữ liệu có kĩ năng và các nhà thống kế để phát triển các mô hình phân tích nhanh và các thuật toán hiệu quả để có được thông tin có giá trị cho người ra quyết định nhanh chóng. Gia tốc dữ liệu là sự cần thiết doanh nghiệp mà tạo cho công ti cơ hội để đánh bại đối thủ cạnh tranh trong thị trường cạnh tranh cao. Vài năm trước, việc làm của nhà khoa học dữ liệu, kĩ sư dữ liệu, người phân tích dữ liệu thậm chí còn chưa tồn tại. Ngày nay mọi công ti đều cần chúng và khi nhu cầu là cao, nhiều sinh viên khoa học máy tính đang chuyển vào trong bằng cấp chuyên sâu trong khoa học dữ liệu và phát triển các kĩ năng trong thao tác dữ liệu, phân tích dữ liệu dùng Hadoop, Pig, và Hive, NonSQL, và MapReduce v.v.

English version

Full article: Big Data and Velocity

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Lời khuyên cho sinh viên
  • Biên tập: Kipkis.com
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University.
"Like" us to know more!