Big Data: biên giới mới

Big Data có thể được mô tả là “Công nghệ mới được thiết kế để trích rút giá trị từ khối lượng rất lớn của đa dạng rộng các dữ liệu bằng việc tạo khả năng nắm bắt gia tốc cao, khám phá và phân tích.” Các ứng dụng tiềm năng của phân tích big data vẫn còn đang tăng trưởng với các ý tưởng mới, ứng dụng mới và giá trị mới. Một nhà phân tích công nghiệp viết: “Big data rất tương tự như Internet hai mươi năm trước. Khi internet được phát minh ra, chỉ vài người biết nó có thể làm được gì hay cái gì có thể xảy ra. Nếu bạn nhìn lại lúc bắt đầu của internet, bạn thấy vài công ti như Google và Amazon đã có khả năng nắm lấy cơ hội này và thâu tóm thị trường và cách mọi thứ bị thay đổi. Cùng điều đó đang xảy ra bây giờ với phân tích Big data và nếu bạn học thêm về nó và nắm lấy cơ hội này, bạn sẽ làm rất tốt. Nếu bạn bỏ qua nó, bạn sẽ bỏ lỡ một cơ hội lớn và có lẽ sẽ không sống sót trong tương lai gần.”

Ngày nay Big data đang bắt đầu tác động tới nhiều thứ, khi nhiều công ti đang nhận ra tiềm năng này và nhanh chóng thực hiện phân tích Big data trong tiếp thị, bán hàng và vận hành. Chẳng hạn, cửa hàng bán lẻ lớn Target dùng phân tích big data này để thâu tóm thị trường sinh lời: các bố mẹ mới. Họ biết rằng các bố mẹ mới bao giờ cũng chi nhiều tiền mua sắm hơn cho đứa con mới sinh cho nên họ thu thập dữ liệu từ khách hàng những người mua vitamins, thuốc xoa da, quần áo, khăn, và các thứ phụ nữ mang thai thường mua và dùng các thuật toán đặc biệt để xác định khả năng những khách hàng nào đó có thể mang thai. Khi Target nhận diện khách hàng, họ gửi cho khách hàng những phiếu mua đặc biệt và giảm giá ngay trước khi những người này có con. (Chẳng hạn, giảm giá 20% về quần áo trẻ con, đồ đạc trẻ con, đồ chơi v.v.) Điều này giúp phát triển mối quan hệ tốt với các bố mẹ mới để cho họ sẽ mua bán tại Target chứ không tại các cửa hàng khác. Bằng việc dùng phân tích Big data, ngày nay Target thâu tóm thị trường sinh lời cực kì vì phần lớn các bố mẹ mới đều ưa thích đi mua sắm tại Target.

Best Buy, một cửa hàng bán lẻ đồ điện tử khác cũng dùng phân tích big data để làm tăng số bán. Best Buy dùng một app di động đặc biệt có tên là “ShopSavvy” để trao đổi với khách hàng khi họ quan tâm tới việc mua cái gì đó. App này cho phép khách hàng so sánh giá của Best Buy với các cửa hàng của đối thủ cạnh tranh. Khi khách hàng bắt đầu so sánh giá, phần mềm lập tức theo dõi những đường khách hàng của cửa hàng đang đi, nhận diện họ muốn mua gì, và kiểm căn cước, con số tín dụng tài chính, và các thông tin khác để xác định liệu khách hàng có thể mua được hàng hoá không. Nếu họ có tín dụng tốt, Best Buy lập tức đưa ra đối sánh giá hay giảm giá đặc biệt để chắc khách hàng không mua từ các cửa hàng khác. Big Data tại Best Buy được xây dựng trên cụm Hadoop được cài đặt với phần mềm đặc biệt để quét giá của mọi đối thủ cạnh tranh trong thời gian thực để chắc rằng nó bao giờ cũng có giá tốt nhất có thể. Best Buy cũng thu thập thông tin về bao nhiêu cửa hàng đang bán cùng sản phẩm, và cách họ đặt giá cho sản phẩn của họ. Mọi lần, một khách hàng được nhận diện, người quản lí cửa hàng phải có hành động để chắc rằng khách hàng không bỏ sang mua ở cửa hàng khác bằng việc đối sánh giá của đối thủ cạnh tranh hay đề nghị các khuyến khích khác như chuyển giao và lắp đặt chúng tại nhà khách hàng mà không thêm phí phụ v.v.

Google dùng phân tích big data để nhận diện bùng phát dịch cúm ở Mĩ khi nó lần đầu tiên xảy ra vì Trung tâm kiểm soát và phòng ngừa thảm hoạ (CDC) cần quãng hai tuần để làm điều đó vì nó dựa trên các báo cáo từ các miền nào đó trước khi làm quyết định. Google có thể làm điều đó nhanh hơn vì mỗi ngày nó nhận được hơn ba tỉ câu hỏi tìm kiếm. Bằng việc dùng phân tích dữ liệu lớn, Google có thể nhận diện một miền đặc biệt nơi nhiều người đang tìm từ “cúm” và dùng các thuật toán phức tạp để chỉ ra mối tương quan mạnh giữa số tìm kiếm và việc bùng phát cúm thực tại.

Công ti trực tuyến eBay dùng phân tích Big data để nhận diện việc mất tài năng để ngăn ngừa công nhân khỏi rời bỏ công ti. Phần mềm phân tích big data của họ quét qua hồ sơ nhân viên của công ti để tìm các công nhân đã từng ở trong việc làm hơn ba năm nhưng chưa được cất nhắc, đổi vai trò, hay tăng lương để kết luận rằng có xác suất lớn hơn về việc họ có thể bỏ sang công ti khác. Vì có thiếu hụt công nhân có kĩ năng trong công nghiệp và chi phí tìm và thuê công nhân là đắt, eBay phải giữ những công nhân này hài lòng. Khi một danh sách nhân viên tiềm năng những người có thể rời bỏ được nhận diện, người quản lí phải hành động nhanh chóng để kiểm điểm và làm bất kì cái gì họ có thể làm để ngăn cản điều đó khỏi xảy ra.

Vì phân tích Big data là lĩnh vực mới, nhiều sinh viên đang hỏi làm sao họ có thể có được việc làm nhu cầu cao này. Để làm việc trong khu vực này, bạn cần có ít nhất là bằng thạc sĩ trong Khoa học dữ liệu hay tương đương như thạc sĩ trong Kĩ nghệ phần mềm hay thạc sĩ trong Quản lí hệ thông tin.

Nhà khoa học Big Data phải là chuyên gia chuyên lĩnh vực người có khả năng giải thích cách phân tích thông tin có thể giúp cho người lãnh đạo doanh nghiệp làm quyết định thích hợp trong thời gian thực. Do đó, nhà khoa học Big data phải hiểu các qui trình doanh nghiệp trong toàn công ti, từ tiếp thị, bán hàng, phân phối, vận hành, làm giá, sản phẩm, tài chính, rủi ro v.v. Nhà khoa học Big data phải là một chuyên gia về cơ sở dữ liệu người có hiểu biết tốt về các nguồn dữ liệu bên ngoài và bên trong, cách chúng được thu thập và lưu giữ. (Đó là lí do tại sao sinh viên trong Quản lí hệ thông tin là khớp hơn trong lĩnh vực này.)

Nhà khoa học Big data phải có khả năng trích rút, biến đổi và tải các kho dữ liệu này từ các nguồn nội bộ cũng như truy lục dữ liệu từ các nguồn ngoài như internet, phương tiện xã hội hay các nguồn khác rồi thao tác chúng bằng việc dùng Hadoop, Hive, Pig, MapReduce, Mahoot v.v. để phân tích dữ liệu và phát sinh các báo cáo đặc biệt nơi các giá trị nhìn sâu đặc biệt được nhận diện. Điều này KHÔNG tương tự như các kĩ thuật cơ sở dữ liệu và trinh sát doanh nghiệp truyền thống vì nó giải quyết với khối lượng rất lớn dữ liệu từ nhiều nguồn trong đó dữ liệu là có cấu trúc và phi cấu trúc. (Lưu ý: Trinh sát doanh nghiệp truyền thống chỉ giải quyết với các dữ liệu có cấu trúc xác định được lưu trong cơ sở dữ liệu và hội tụ vào dữ liệu quá khứ). Vì Big data đang giải quyết với dự báo theo thời gian thực hay tương lai, nhà khoa học Big data phải có khả năng xác định các kĩ thuật thống kế thích hợp nhất cho việc đề cập tới khả năng này. Nhà khoa học Big data phải có khả năng áp dụng các kĩ thuật liên quan, và dịch thành kết quả và phát sinh ra “báo cáo nhìn sâu” theo cách người lãnh đạo công ti có thể hiểu và hành động rất nhanh để nắm bắt được giá trị. Điều này yêu cầu nhà khoa học Big data phải có hiểu biết kĩ lưỡng về các kĩ thuật thống kê (như, phân tích hồi qui, phân tích cụm, và kĩ thuật tối ưu) và các công cụ và ngôn ngữ được dùng để cho chạy việc phân tích như “SAS” hay “R”. Để làm điều đó nhà khoa học Big data phải có khả năng viết phần mềm đặc biệt thực hiện các kĩ thuật tính toán như học máy, xử lí ngôn ngữ tự nhiên, phân tích mạng đồ thị/xã hội, lưới thần kinh, và mô hình hoá mô phỏng. Phần lớn những ứng dụng này đều được viết trong đa dạng ngôn ngữ như Java, Python, C++, Math lab và R. (Đó là lí do tại sao sinh viên Kĩ nghệ phần mềm là khớp tốt hơn trong lĩnh vực này.)

English version

Full article: Big Data: The new frontier

Tác phẩm, tác giả, nguồn

  • Tác phẩm: Xu hướng công nghệ
  • Biên tập: Kipkis.com
  • Nguồn: Blog của giáo sư John Vu, Carnegie Mellon University
Don't forget to follow us on Facebook!