Các kỹ thuật mô hình hóa dự báo phổ biến
Hiện nay, có rất nhiêu kỹ thuật dự báo để xây dựng mô hình. Các hệ thống và các nhà cung cấp khác nhau hỗ trợ các kỹ thuật khác nhau, nhưng các môi trường xây dựng mô hình nguồn mở và thương mại cũng hỗ trợ nửa tá các kỹ thuật hay tương tự như vậy. Mặc dù một số kỹ thuật dành riêng cho một lớp vấn đề đơn lẻ, một số là tổng quát và có thể được sử dụng cho một loạt các ứng dụng.
Hình 5: Siêu phẳng tối ưu chia tách dữ liệu và các vec tơ hỗ trợ
Một máy vec tơ hỗ trợ (SVM: Support Vector Machine) ánh xạ các vec tơ dữ liệu đầu vào tới một không gian có số chiều cao hơn, ở đó một "siêu phẳng tối ưu" chia tách các dữ liệu được xây dựng. Có hai siêu phẳng (hyperplane) song song được xây dựng trên mỗi bên của siêu phẳng này. [Hình 5] cho thấy một ví dụ trong đó một siêu phẳng tối ưu được hiển thị đang chia tách hai thể loại dữ liệu (các hình tam giác và các hình vuông). Siêu phẳng chia tách tối ưu là một siêu phẳng làm tăng tối đa khoảng cách giữa hai siêu phẳng song song. Khoảng cách giữa hai siêu phẳng càng lớn hơn thì mô hình được giả định càng chính xác hơn. Các điểm dữ liệu nằm trên một trong hai siêu phẳng song song xác định khoảng cách lớn nhất được biết đến như là các vec tơ hỗ trợ.
Các máy vec tơ hỗ trợ, cũng như các mạng thần kinh và các mô hình hồi quy logic ký hiệu, là các kỹ thuật tổng quát rất mạnh, mặc dù khác nhau về toán học, nhưng đều tạo ra các kết quả tương đương nhau ở mức độ nào đó. Các cây quyết định là một kỹ thuật mô hình hóa dự báo tổng quát nữa nổi bật về khả năng của nó trong việc giải thích lý do cơ bản đằng sau kết quả đầu ra đã tạo ra[6]. Vì chúng dễ sử dụng và dễ hiểu, nên cây quyết định là kỹ thuật mô hình hóa dự báo được sử dụng phổ biến nhất.
Mặt khác, các kỹ thuật phân cụm rất phổ biến bất cứ khi nào biến đích hoặc biến đáp ứng không quan trọng hoặc không có sẵn. Như tên gọi đã gợi ý, các kỹ thuật phân cụm có khả năng phân cụm dữ liệu đầu vào theo mức độ giống nhau. [Hình 6] cho thấy một ví dụ trong đó dữ liệu đầu vào đã được chia thành hai cụm. Trong khi dữ liệu trong cụm đầu tiên được mô tả bằng cách sử dụng các hình tam giác màu xanh lá cây, thì dữ liệu trong cụm thứ hai được mô tả bằng cách sử dụng các hình vuông màu đỏ.
Hình 6: Kết quả của việc phân cụm một tập dữ liệu
Chúng ta cũng có thể sử dụng các luật kết hợp để tìm ra các qui luật khi mà chúng ta không quan tâm nhiều tới biến phụ thuộc, trong khi lại quan tâm nhiều tới biến độc lập đầu vào. Kỹ thuật này chính là kỹ thuật khai phá luật kết hợp trong khoa học khai phá dữ liệu. Ví dụ về việ phân tích giỏ hàng siêu thị như sau, chúng ta có thể sử dụng các quy tắc kết hợp để phát hiện ra một điều tú vị rằng những người mua tã lót và sữa cũng mua bia. Lý giải cho việc này là một điều rất thú vị của cuộc sống đó là, tại một thời điểm, trong xã hội người phụ nữ dễ tìm việc làm hơn, do đó người đàn ông phải ở nhà làm việc nhà trong đó có cả việc đi siêu thị và chăm con.
Các kỹ thuật dự báo đều có các điểm mạnh và các điểm yếu khác nhau, độ chính xác của mô hình phụ thuộc rất nhiều vào dữ liệu thô đầu vào và các đặc tính được sử dụng để huấn luyện mô hình dự báo. Như đã đề cập ở trên, việc xây dựng mô hình đòi hỏi rất nhiều việc phân tích dữ liệu và xử lý dữ liệu. Thông thường, từ hàng trăm thuộc tính dữ liệu thô có sẵn, chỉ chọn ra một tập con các thuộc tính và thực hiện xử lý trước các thuộc tính này trước khi cung cấp cho một kỹ thuật mô hình hóa dự báo. Theo cách này, bí mật đằng sau một mô hình dự báo tốt thường phụ thuộc nhiều hơn vào việc xử lý tốt dữ liệu so với kỹ thuật được sử dụng để huấn luyện mô hình. Điều đó không có nghĩa là kỹ thuật dự báo không quan trọng. Nếu sử dụng sai kỹ thuật hoặc chọn tập các tham số đầu vào sai, dữ liệu tốt cũng sẽ chẳng giúp được gì.
Các mạng thần kinh nhân tạo (ANN: Artificial Neural Network) chẳng hạn, dùng được với tất cả các hình dạng và các biểu mẫu. Việc lựa chọn một cấu trúc mạng đúng là một việc rất quan trọng để xây dựng một mô hình dự báo tốt. Như thể hiện trong hình 7, các mạng thần kinh hướng thuận (feed-forward) có một tầng đầu vào, với số nút đúng bằng số lượng các trường đầu vào và các đặc tính đang được xem xét và một tầng đầu ra, mà trong trường hợp một hàm hồi quy thì tầng đầu ra này được tạo nên bởi chỉ một nút duy nhất đại diện cho trường cần dự báo. Mặc dù ở giữa các tầng đầu vào và đầu ra, mạng thần kinh có thể được cấu hình với số lượng các tầng ẩn và các nút ẩn tùy ý, vấn đề ở đây là nếu bạn chọn cung cấp cho mạng thần kinh quá ít các nút ẩn, thì nó có thể không học được hàm ánh xạ giữa các trường đầu vào và đích. Nếu có quá nhiều nút ẩn thì nó sẽ bị quá khớp (over fitting), có nghĩa là, nó sẽ học toàn bộ dữ liệu đầu vào, nhưng sẽ không thể dự báo các sự kiện trong tương lai. (Hình 7)
Hình 7: Mạng thần kinh hướng thuận với tầng đầu vào, tầng ẩn và tầng đầu ra
Các kỹ thuật phân cụm đòi hỏi cung cấp số lượng các cụm trước khi huấn luyện. Trong trường hợp này, nếu số lượng các cụm quá nhỏ, mô hình có thể không thấy được các sự khác biệt quan trọng trong dữ liệu đầu vào, vì nó sẽ bị buộc phải cho các dữ liệu khác nhau vào trong cùng một thùng. Mặt khác, nếu số lượng các cụm là quá lớn, nó có thể bỏ sót những nét tương đồng quan trọng. Trong ví dụ thể hiện trong [hình 5], nếu đã thiết lập số lượng các cụm là ba thay vì là hai, thêm một cụm nữa sẽ được tạo ra, và có lẽ nó đã che mờ bản chất thật sự của dữ liệu (các hình tam giác màu vàng hay là hình vuông màu tím?). (Hình 8)
Hình 8: Biểu diễn sơ đồ của một tập hợp mô hình
Các mô hình dự báo cũng có thể đồng thời được hưởng lợi từ các kỹ thuật mô hình hóa khác nhau. Điều này là do có thể kết hợp nhiều mô hình với nhau theo một tập hợp mô hình. Theo cách này, đầu ra của tập hợp này được thiết kế để sử dụng các tập hợp điểm mạnh khác nhau vốn có trong các mô hình và các kỹ thuật khác nhau. Biểu diễn sơ đồ của một tập hợp mô hình trong đó các điểm số từ tất cả các mô hình được tính toán và dự báo cuối cùng được xác định bằng một cơ chế bỏ phiếu hoặc tính trung bình
2.3. Học có giám sát và học không giám sát
Máy vec tơ hỗ trợ (Support Vector machine), cây quyết định (Decision Tree), các mạng thần kinh nhân tạo (ANN: Artificial Neural Network) và các mô hình hồi quy (Rgression) sử dụng phương thức học có giám sát để tạo ra hàm ánh xạ giữa một tập các thuộc tính của dữ liệu đầu vào và một biến phụ thuộc. Tiếp sau, kết quả đã biết được sử dụng giống như một giáo viên để giám sát việc học tập của học sinh của mình. Bất cứ khi nào học sinh mắc lỗi, giáo viên này cung cấp cho học sinh của mình câu trả lời đúng với hy vọng rằng cuối cùng học sinh này sẽ hiểu đúng. Ví dụ, khi được đưa cho một tập đầu vào cụ thể, đầu ra của học sinh sẽ khớp với đích.
Xem xét việc huấn luyện một mạng thần kinh để dự báo sự dao động hoặc rời bỏ đi của khách hàng do mất dần khách hàng. Chúng ta sẽ bắt đầu bằng cách ráp nối lại một tập các trường dữ liệu đầu vào biểu diễn một khách hàng cụ thể nào đó mà họ đã dao động trong quá khứ. Tập này có thể gồm có giới tính, tuổi tác, cũng như các thuộc tính liên quan đến sự hài lòng, chẳng hạn như số lượng các lời than phiền, số giao dịch... Khách hàng này, bây giờ được biểu diễn bằng một tập hợp các trường dữ liệu và kết quả bỏ đi hay không, sau đó được cung cấp cho mạng thần kinh để học tập (xây dựng mô hình). Các dữ liệu này có thể được cung cấp nhiều lần cho đến khi mạng thần kinh đó có thể xây được mối quan hệ giữa đầu vào và biến đầu ra. Tuy nhiên, khách hàng này không phải là một trường hợp đơn độc. Đó chỉ là một trong rất nhiều khách hàng. Chính quá trình này cần phải được lặp đi lặp lại cho tất cả khách hàng, những người bỏ đi và cả những người không bỏ đi. Để họ phân biệt giữa hai kết quả có thể xảy ra, mạng thần kinh nhân tạo sẽ cần tạo ra một biểu diễn trừu tượng cho các khách hàng đã bỏ đi và đã không bỏ đi.
Một thuật toán toán học nổi tiếng được sử dụng cho các mạng thần kinh hướng thuận (feed-forward) được gọi là lan truyền ngược. Nó cho phép sai số hay sự khác nhau giữa đích và kết quả đầu ra, được lan truyền ngược lại thông qua mạng, sau đó được sử dụng để điều chỉnh các trọng số liên kết nối các nút mạng. Theo cách này, cuối cùng mạng sẽ học thuộc được nhiệm vụ, dù là từng tí một. Tuy nhiên, nếu không có một đích, quá trình như vậy sẽ không khả thi.
Việc học tập không giám sát không đòi hỏi có “giáo viên” hoặc “mục tiêu”. Các kỹ thuật phân cụm thuộc về thể loại này. Như thể hiện trong [Hình 6], các điểm dữ liệu chỉ đơn giản được nhóm lại với nhau dựa trên sự giống nhau của chúng. Trong trường hợp dự báo sự bỏ đi của khách hàng, một kỹ thuật phân cụm nhiều khả năng có thể gán các khách hàng bỏ đi và các khách hàng không bỏ đi vào các cụm khác nhau, mặc dù kết quả đầu ra không cho sẵn trong quá trình huấn luyện mô hình.
2.4. Phân tích hộp đen
Phân tích hộp đen là một thuật ngữ được sử dụng để xác định các kỹ thuật mô hình hóa dự báo nào đó mà ta không có khả năng giải thích lập luận của chúng. Chúng ta chỉ biết và quan tâm tới dữ liệu đầu vào và dữ liệu đầu ra. Một kỹ thuật mạnh mẽ, các kỹ thuật như các mạng thần kinh và các máy vec tơ hỗ trợ đều thuộc loại này. Hãy xem xét mô hình mạng thần kinh chính xác cao của chúng ta, được huấn luyện để phân biệt các khách hàng bỏ đi và các khách hàng không bỏ đi. Nếu nó đưa ra một nguy cơ bỏ đi cao đối với một khách hàng cụ thể, nó sẽ không thể nói cho chúng ta biết lý do tại sao. Điều này dẫn đến một câu hỏi quan trọng: liệu một mô hình dự báo có cần biết cách giải thích lập luận của nó không? Câu trả lời rất có thể là "còn tùy". Trong trường hợp mà nguy cơ do một mô hình dự báo đưa ra được dùng để khởi đầu một hành động bất lợi, thì thường là nên có và trong một số trường thậm chí là bắt buộc phải có một lời giải thích. Ví dụ, khi sử dụng một điểm số cho nguy cơ để từ chối một đơn xin vay tiền hoặc một giao dịch thẻ tín dụng[7].
Bất cứ khi nào việc giải thích là phải có, bạn cần xem xét sử dụng một kỹ thuật mô hình hóa dự báo xác định rõ ràng các lý do cho các quyết định của nó. Các thẻ tính điểm rất phù hợp với một tiêu chí như vậy. Dựa trên các mô hình hồi quy, các thẻ tính điểm là một kỹ thuật phổ biến được các tổ chức tài chính sử dụng để đánh giá nguy cơ. Với các thẻ tính điểm, tất cả các trường dữ liệu trong một bản ghi đầu vào được gắn với các mã số lý do cụ thể. Trong quá trình xử lý, các trường dữ liệu được đánh trọng số dựa vào một điểm số nguy cơ cơ sở. Sau khi nhận biết được các trường có ảnh hưởng cao nhất đến kết quả cuối cùng, thì các mã số lý do gắn liền với chúng sau đó được trả về cùng với kết quả đầu ra. (Hình 9)
Hình 9: Một cây quyết định đơn giản được sử dụng để phân loại khách hàng vay vốn tiêu dùng
Giống như với các thẻ tính điểm, các cây quyết định cũng dễ giải thích và dễ hiểu. Trong một cây quyết định, toàn bộ quá trình ra quyết định được biểu diễn bằng một tập các điều kiện dễ đọc với con người, đó là, một tập các quy tắc. Một nút lá trong một cây quyết định đạt được sau khi một tập các điều kiện được tính toán là đúng. [Hình 9] cho chúng ta thấy biểu diễn đồ họa của một cây quyết định được sử dụng để phân loại khách hàng tín dụng của một ngân hàng thành 2 lớp riêng biệt dựa vào các thuộc tính của họ (thu nhập, tuổi, nghề nghiệp). Các lớp đích là: Có và Không (Có quyết định cho khách hàng vay vốn hay Không cho vay). Lưu ý rằng cây này có thể được biểu diễn bởi một tập các quy tắc. Ví dụ, một khách hàng có thu nhập cao và tuổi còn trẻ thì được ngân hàng quyết định cho vay tiêu dùng.
Mặc dù lập luận đằng sau các quyết định được tạo ra bằng các kỹ thuật mô hình hóa hộp đen là khó giải thích, bản thân các mô hình thì lại không khó để giải thích. Hiện nay, việc biểu diễn quá trình xử lý trước dữ liệu cũng như các mô hình dự báo là khá đơn giản với PMML (Predictive Model Markup Language - Ngôn ngữ đánh dấu mô hình dự báo). PMML là tiêu chuẩn thực tế được tất cả các công ty phân tích hàng đầu sử dụng để sản xuất và tiêu dùng các giải pháp dự báo[8]. Là ngôn ngữ đánh dấu mô hình dự báo, nó cho phép tất cả các kỹ thuật dự báo đã đề cập trong bài này được biểu diễn theo một định dạng tiêu chuẩn, duy nhất. Sau khi được biểu diễn dưới dạng một tệp PMML, một mô hình dự báo có thể được di chuyển ngay lập tức từ máy tính để bàn của nhà khoa học, nơi phát triển nó, sang môi trường vận hành, nơi nó được đưa vào hoạt động. Theo cách này, các mô hình mới hoặc bất kỳ các cập nhật nào cho các mô hình hiện có đều có thể được triển khai hoạt động ngay lập tức. Là một tiêu chuẩn mở có thể được tất cả mọi người hiểu rõ, PMML được sử dụng làm một cầu nối không chỉ giữa các hệ thống phát triển và triển khai mô hình, mà còn giữa tất cả mọi người liên quan đến quá trình phân tích trong một công ty. Theo cách này, nó đảm bảo cho tính trong suốt, phổ biến kiến thức và các cách thực hành tốt nhất.
3 Kết luận
Một cách tổng quát, kho dữ liệu luôn mở rộng xung quanh chúng ta và cùng với kỹ thuật phân tích cho phép chúng ta sử dụng, vận hành nó nó một cách an toàn. Dữ liệu lịch sử trong được thu thập từ mọi người và các cảm biến đang biến đổi thế giới của chúng ta, vì nó cho phép xây dựng các mô hình có thể sử dụng quá khứ để dự báo tương lai. Tác giả cũng muốn nhân mạnh rằng, thực tế những cái được gọi là các mô hình dự báo là một sản phẩm của các kỹ thuật toán học thông minh được áp dụng cho dữ liệu.
Các mạng thần kinh nhân tạo (ANN) , các máy vec tơ hỗ trợ (SVM), các cây quyết định (DT), hồi quy tuyến tính và hồi quy logic ký hiệu (CRAT), phân cụm, các quy tắc kết hợp và các thẻ tính điểm là các kỹ thuật mô hình hóa dự báo phổ biến nhất được các nhà khoa học dữ liệu hiện nay sử dụng để tìm kiếm các mẫu ẩn giấu trong dữ liệu. Mặc dù có khả năng học và tổng quát hóa, những kỹ thuật này không chỉ luôn luôn thiếu dữ liệu, mà còn có xu hướng tiêu thụ rất nhiều tài nguyên trong quá trình xử lý. Do đó, các giải pháp dự báo đang trải qua một sự bùng nổ trong tất cả các ngành nghề, do sự ra đời của:
1) Dữ liệu lớn (Big Data) bắt nguồn từ con người và cảm biến;
2) Các nền tảng xử lý hiệu quả về chi phí như dựa trên đám mây và Hadoop;
3) PMML, một tiêu chuẩn mở đã chín muồi và tinh lọc được sử dụng để biểu diễn toàn bộ một giải pháp dự báo. Kết hợp với nhau, ba yếu tố này đem lại các mô hình mạnh mẽ, có thể bắt đầu đưa ra các quyết định ngay lập tức, bất kể công ty ở quy mô nào.
Trong thực tế, các nhà khoa học dữ liệu đang tích cực làm việc để xây dựng các giải pháp dự báo với dữ liệu mà chúng ta, với tư cách là một thành viên của cộng đồng, đang thu thập theo một nhịp độ không ngừng tăng lên. Khi kết hợp với các kỹ thuật phân tích thông minh, dữ liệu này cho chúng ta khả năng biến đổi thế giới này thành một thế giới thông minh hơn, nơi việc phòng chống bệnh tật, tội phạm và tai nạn trở thành hiện thực chứ không chỉ là một dự báo trong một Hệ thống thông tin nào đó.
(CNTT theo Tạp chí THNH)