Dữ liệu được nhắc đến như là nguồn tài sản quý giá của doanh nghiệp. Đứng trước thời kì bùng nổ dữ liệu, vấn đề lớn đặt ra với doanh nghiệp: phải tổ chức dữ liệu lớn đang phát sinh hàng ngày hàng giờ thế nào, bằng cách nào có thể khai thác dữ liệu đó hiệu quả. Bài này phân tích tầm quan trọng của dữ liệu lớn đối với doanh nghiệp và đưa ra những so sánh giữa một số nền tảng xử lý dữ liệu lớn hiện nay.
Dữ liệu được nhắc đến như là nguồn tài sản quý giá của doanh nghiệp. Đứng trước thời kì bùng nổ dữ liệu, vấn đề lớn đặt ra với doanh nghiệp: phải tổ chức dữ liệu lớn đang phát sinh hàng ngày hàng giờ thế nào, bằng cách nào có thể khai thác dữ liệu đó hiệu quả. Bài này phân tích tầm quan trọng của dữ liệu lớn đối với doanh nghiệp và đưa ra những so sánh giữa một số nền tảng xử lý dữ liệu lớn hiện nay.
Giới thiệu
Hằng ngày, cả thế giới tạo ra khoảng 2.5 quintillion byte dữ liệu, 90% lượng dữ liệu mà thế giới đang lưu trữ được sinh ra trong vòng 2 năm trở lại đây [1]. Dữ liệu được tạo ra từ rất nhiều nguồn: các loại cảm biến thời tiết, các phương tiện xã hội, máy ảnh hoặc máy quay kĩ thuật số, bản ghi các giao dịch mua bán, tín hiệu GPS từ các điện thoại thông minh, ...Những dữ liệu nêu trên thuộc loại bán cấu trúc hoặc phi cấu trúc. Đây gọi là dữ liệu lớn. Đã có thời kì ngành CNTT đối mặt với khủng hoảng về khả năng mở rộng của các thiết bị lưu trữ và xử lý dữ liệu. Bởi dữ liệu đó sinh ra quá nhanh, quá nhiều và đa dạng về thể loại. Những loại dữ liệu này vô cùng quý giá đối với doanh nghiệp, đặc biệt là những doanh nghiệp phụ thuộc nhiều vào khách hàng đại chúng. Nhận thức được điều đó, các doanh nghiệp trên thế giới nói chung và ở Việt Nam nói riêng đang bỏ ra một khoản kinh phí không nhỏ để đầu tư cho công nghệ xử lý loại dữ liệu này. Muốn xử lý được cần phải đảm bảo 2 yếu tố: công nghệ lưu trữ tân tiến và công cụ phân tích nâng cao. Hiện nay, nhiều hãng công nghệ lớn đã tung ra thị trường các công cụ lưu trữ, xử lý và phân tích dữ liệu lớn.
Dữ liệu lớn
Dữ liệu lớn thường bao gồm những loại dữ liệu sau:
- Dữ liệu truyền thống: bao gồm dữ liệu từ các hệ thống CRM, ERP, dữ liệu xử lý giao dịch và general ledger.
- Dữ liệu do máy móc hoặc bộ phận cảm biến sinh ra: bao gồm CDR (Call Detail Record), weblog, smart meter, bộ phận cảm biến trong sản xuất, công cụ log,...
- Dữ liệu xã hội: bao gồm thông tin phản hồi của khách hàng, blog như Twitter, Facebook,...
Viện McKinsey Global Institute ước tính rằng, hàng năm dung lượng dữ liệu tăng 40% và tăng hơn 400 lần trong khoảng thời gian từ 2009 đến 2020 [1]. Tuy nhiên, dung lượng dữ liệu chỉ là một trong số các chỉ số nói về dữ liệu lớn. Nhắc tới dữ liệu lớn phải nói tới 3 đặc trưng cơ bản:
- Dung lượng (Volume): Dung lượng là yếu tố đầu tiên và cũng là yếu tố được quan tâm nhất khi nói đến dữ liệu lớn. Năm 2000, cả thế giới đang lưu trữ 800.000 petabyte dữ liệu, dự kiến năm 2020 sẽ lên tới 35 zetabyte. Bản thân Twitter tạo ra 7 tetabyte dữ liệu mỗi ngày, còn Facebook là 10 tetabyte [1]. Còn rất nhiều tổ chức, doanh nghiệp khác hàng ngày hàng giờ vẫn đang tạo ra một lượng dữ liệu rất lớn. Doanh nghiệp đang phải đối mặt với lượng dữ liệu khổng lồ.
- Tốc độ (Velocity): Tốc độ có thể hiểu là tần số sinh dữ liệu hoặc tần số nhận dữ liệu. Sự ra đời của các thiết bị thu thập dữ liệu hiện đại (thiết bị cảm ứng, web log,...), tốc độ thu thập cao hơn rất nhiều so với cách truyền thống.
- Đa dạng (Variety): Dữ liệu được biểu diễn ở mọi dạng. Với sự bùng nổ về các loại thiết bị cảm ứng, thiết bị thông minh, cũng như các công nghệ cộng tác xã hội làm cho dữ liệu trong các doanh nghiệp ngày càng phức tạp hơn. Bởi, dữ liệu không chỉ đơn thuần ở dạng có cấu trúc, thêm vào đó còn có cả những dữ liệu nguyên bản, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc. Các hệ thống phân tích dữ liệu truyền thống không thể xử lý được những loại dữ liệu này.
Muốn tận dụng được sức mạnh của dữ liệu lớn, doanh nghiệp phải đầu tư cơ sở hạ tầng để có thể xử lý được dữ liệu có đặc trưng “3V” đã nêu trên, đồng thời tích hợp được với dữ liệu hiện tại của doanh nghiệp nhằm mục đích phân tích để đưa ra những thông tin có giá trị.
Tầm quan trọng của dữ liệu lớn
Thu thập và phân tích dữ liệu lớn cùng với dữ liệu truyền thống giúp doanh nghiệp có cái nhìn sâu sắc và thấu đáo hơn về nghiệp vụ của mình. Điều này giúp doanh nghiệp cải thiện hiệu suất làm việc, cải thiện vị trí cạnh tranh trên thương trường và đưa ra những thay đổi hữu ích trong hoạt động nghiệp vụ. Dữ liệu lớn đang có những ảnh hưởng sâu sắc tới hoạt động của các doanh nghiệp hiện đại. Sự ảnh hưởng đó không chỉ dừng lại ở một ngành nghề hay một lĩnh vực nhất mà đã và đang ảnh hưởng tới mọi loại hình kinh doanh, sản xuất và dịch vụ.
Phân tích dữ liệu lớn xử lý được các loại dữ liệu bao gồm: có cấu trúc, phi cấu trúc và bán cấu trúc. Những công cụ phân tích dữ liệu truyền thống không làm được việc này. Trước kia, để quản lý hiệu năng hoạt động doanh nghiệp, người ta thường định ra các độ đo, sau đó dựa trên dữ liệu lịch sử và độ đo để dự đoán cho tương lai. Như vậy, các doanh nghiệp không tận dụng một cách triệt để các nguồn dữ liệu mà doanh nghiệp đang có. Điều này dẫn tới những dự đoán họ đưa ra thường là những giả định, độ chắn chắn thấp. Với phân tích dữ liệu lớn, doanh nghiệp sử dụng được mọi nguồn dữ liệu để phân tích. Điều đó giúp có cái nhìn chi tiết, sâu sắc hơn về hoạt động hiện tại của doanh nghiệp, đồng thời những dự đoán cho tương lai và các quyết định cũng có độ chắc chắn cao hơn.
Phân tích dữ liệu sẽ không chỉ là vấn đề của phòng CNTT, các bộ phận khác cũng có thể tham gia tập hợp, phân tích dữ liệu với những công cụ phân tích dễ dùng, trực quan, giúp doanh nghiệp có cái nhìn đa chiều, phong phú, từ đó đưa ra quyết định một cách chính xác, dễ dàng hơn.
Phân tích dữ liệu lớn đang phát triển theo xu hướng phân tích theo thời gian thực, đây thực sự là điều rất hứa hẹn đối với doanh nghiệp. Khi kết hợp phân tích dữ liệu lớn với các hoạt động quản lý, hoạch định,... doanh nghiệp bước sang một kỷ nguyên mới về phân tích dữ liệu thông minh để đạt mục tiêu cao hơn, hứa hẹn hơn trong các quyết định kinh doanh.
Xây dựng nền tảng dữ liệu lớn cho doanh nghiệp
Cũng giống như kho dữ liệu, thương mại điện tử hay bất kì nền tảng công nghệ thông tin nào khác, xây dựng cơ sở hạ tầng để xử lý dữ liệu lớn là yếu tố cốt lõi. Mục tiêu cao nhất cần đạt tới là nền tảng xử lý dữ liệu lớn dễ dàng tích hợp với dữ liệu hiện có của doanh nghiệp và cho phép phân tích sâu các loại dữ liệu từ có cấu trúc đến phi cấu trúc. Yêu cầu cơ bản đối với nền tảng dữ liệu lớn gồm ba vấn đề: thu thập, tổ chức và phân tích dữ liệu.
Thu thập dữ liệu
Thu thập dữ liệu là một trong những khác biệt chính trong cơ sở hạ tầng để xử lý dữ liệu truyền thống và dữ liệu lớn. Bởi, dữ liệu lớn liên quan đến những dòng dữ liệu có tốc độ dịch chuyển cao, đa dạng về thể loại. Cơ sở hạ tầng phải đảm bảo độ trễ thấp, độ tin cậy cao trong cả thu thập dữ liệu và xử lý những truy vấn dữ liệu ngắn, đơn giản; có khả năng xử lý những giao dịch lớn (thường diễn ra trong môi trường phân tán); hỗ trợ những cấu trúc dữ liệu động và phức tạp.
Tổ chức dữ liệu
Đối với kho dữ liệu cổ điển, tổ chức dữ liệu thường gọi là tích hợp dữ liệu. Bởi cần phải dịch chuyển dữ liệu với nhiều dạng khách nhau từ nơi lưu trữ ban đầu về kho, tốn không ít thời gian cũng như tiền bạc của doanh nghiệp. Đối với dữ liệu lớn lại khác, nền tảng dữ liệu lớn xử lý và thao tác dữ liệu ở ngay tại nơi lưu trữ hiện tại của dữ liệu; hỗ trợ thông lượng cao (thường là xử lý dữ liệu theo lô) để đáp ứng các bước trong quy trình xử lý dữ liệu và đáp ứng đa dạng các loại dữ liệu, từ phi cấu trúc đến có cấu trúc.
Phân tích dữ liệu
Dữ liệu không phải di chuyển trong quá trình lưu trữ đồng nghĩa với phân tích cũng phải ra trong môi trường phân tán (nơi lưu trữ ban đầu các loại dữ liệu khác nhau), tuy nhiên vẫn phải đảm bảo tính trong suốt nếu nhìn từ kho dữ liệu. Cơ sở hạ tầng cần thiết cho xử lý dữ liệu lớn phải có khả năng phân tích dữ liệu ở mức sâu (như: phân tích thống kê, khai phá dữ liệu,...) với nhiều loại dữ liệu và nhiều thiết bị lưu trữ khác nhau; có khả năng phân tích dữ liệu ở quy mô lớn; thời gian phản hồi nhanh chóng và tự động hóa các quyết định dựa vào các mô hình phân tích. Điều quan trọng nhất, cơ sở hạ tầng phải có khả năng phân tích một cách tích hợp giữa dữ liệu lớn và dữ liệu truyền thống. Cái nhìn mới không chỉ đến từ dữ liệu mới, phân tích dữ liệu cũ trong những bối cảnh cụ thể sẽ mang lại cái nhìn mới về những vấn đề cũ.
Đánh giá một số nền tảng trên thế giới
Hiện nay trên thế giới đã có nhiều nhà cung cấp đưa ra các nền tảng xử lý dữ liệu lớn, chúng tôi chọn ra 3 nhà cung cấp đang được sử dụng nhiều trên thị trường hiện này để đánh giá, đó là: IBM, Oracle và Splunk.
Nền tảng cho dữ liệu lớn của IBM bao gồm: IBM InfoSphere Biginsights và IBM InfoSphere Streams. IBM InforSphere Biginsights cung cấp khả năng phân tích dữ liệu rất lớn, nhanh và dễ sử dụng. Trong khi đó, IBM InfoSphere Streams lại cung cấp nền tảng để phân tích dữ liệu thời gian thực với độ trễ cực nhỏ. Hiện nay trên thế giới chỉ có IBM đưa ra cả hai loại công cụ như thế này trong một nền tảng. Hình 1 là kiến trúc nền tảng của IBM dùng cho dữ liệu lớn.
Oracle lại phát triển nền tảng dữ liệu lớn theo hướng tiếp cận khác, đó là: mở rộng hệ thống thống tin doanh nghiệp hiện tại để có thể xử lý được dữ liệu lớn, nghĩa là Oracle xây dựng tính năng xử lý dữ liệu lớn cho doanh nghiệp trên nền tảng middleware sẵn có của mình. Hình dưới đây mô tả giải pháp dữ liệu lớn của Oracle.
Splunk cung cấp công cụ phân tích, báo cáo dựa trên dữ liệu text, thường là dữ liệu máy, bao gồm: các bản ghi về giao dịch của người dùng, các hành vi của khách hàng, hành vi của máy móc, lỗi bảo mật, ... Splunk tổ chức dữ liệu theo kiểu động, phi cấu trúc. Ngôn ngữ truy vấn đơn giản, giúp người dùng sử dụng một cách dễ dàng mà không cần phải mất thời gian quá nhiều để học.
Để có cái nhìn tổng quan hơn về 3 nền tảng này, chúng tôi xin đưa ra bảng so sánh dựa theo các tiêu chí: khả năng xử lý “3V”, khả năng lưu trữ, mô hình xử lý dữ liệu, khả năng xử lý trên đám mây, khả năng hỗ trợ truy vấn, khả năng mở rộng, khả năng chịu lỗi, tính ảo hóa và khả năng tích hợp vào doanh nghiệp.
Kết luận
Dữ liệu lớn là tài sản quý của doanh nghiệp. Kết hợp phân tích dữ liệu lớn và dữ liệu hiện có của doanh nghiệp ở mức sâu sẽ mang lại những lợi ích to lớn. Muốn làm được điều đó, doanh nghiệp cần phải có nền tảng xử lý dữ liệu lớn tốt. Hiện nay trên thị trường đã xuất hiện nhiều nền tảng xử lý dữ liệu lớn như: Oracle, Micrsoft, IBM, Cloudera, Splunk,... Với những tính năng nổi trội so với các công cụ phân tích dữ liệu truyền thống, các nền tảng phân tích dữ liệu lớn hứa hẹn sẽ là công cụ đắc lực, giúp các doanh nghiệp có cái nhìn sâu sắc về các hoạt động nghiệp vụ của mình, giúp doanh nghiệp cải thiện vị trí cạnh tranh trên thị trường.
(Cnth theo Tạp chí thnh)