Yahoo Chia Sẻ Cơ Sở Dữ Liệu Với Cộng Đồng Nghiên Cứu Học Thuật

ANTS

20/01/2016

Yahoo Chia Sẻ Cơ Sở Dữ Liệu Với Cộng Đồng Nghiên Cứu Học Thuật

Ngày 14/1 vừa qua, Yahoo đã thông báo về dự án Yahoo Labs Webscope, cho phép cộng đồng nghiên cứu học thuật được tiếp cận với cơ sở dữ liệu lớn nhất từ trước đến nay từ hệ thống máy học (Machine learning) của mình.

Đây là cơ sở dữ liệu mới với dung lượng lên tới 13,5 TB và chứa thông tin tương tác của những người dùng ẩn danh thuộc sở hữu của Yahoo. Cụ thể, các tương tác được thu thập từ khoảng 20 triệu người dùng trong khoảng thời gian từ 2/2015 – 5/2015, thông qua các nền tảng như Yahoo Homepage, Yahoo News, Yahoo Sports, Yahoo Finance, và Yahoo Real Estate.

Ngoài thông tin tương tác, cơ sở dữ liệu này còn chứa thông tin nhân khẩu học như nhóm tuổi, giới tính, dữ liệu vị trí địa lý tổng quát. Các hạng mục trong bộ dữ liệu bao gồm tiêu đề, tóm tắt, cụm từ khóa bài viết dưới dạng câu hỏi, thời gian theo giờ địa phương và thông số từng phần của thiết bị.

Explains Suju Rajan, Giám đốc bộ phận Khoa học cá nhân hóa tại Yahoo Labs cho biết: “Dữ liệu là nguồn sống của các nghiên cứu trong ngành Machine learning. Tuy nhiên, việc tiếp cận cơ sở dữ liệu với qui mô thực sự lớn là một đặc quyền mà lâu nay chỉ dành cho những chuyên gia Machine learning và các nhà khoa học dữ liệu tại các tập đoàn lớn. Nó nằm ngoài tầm với của hầu hết các nhà nghiên cứu học thuật”.

Bà Rajan cho biết thêm, các chuyên gia tại Yahoo Labs từ trước đến nay vẫn sử dụng cơ sở dữ liệu đồ sộ này để xử lý những vấn đề Machine learning qui mô lớn liên quan đến dòng sản phẩm tiêu dùng đại chúng (customer-facing products), đặc biệt trong các lĩnh vực như xếp hạng tìm kiếm, quảng cáo vi tính, truy vấn thông tin,…

Trong khi đó, giới nghiên cứu hàn lâm lại không thể kiểm nghiệm những giả thuyết nghiên cứu trên tập dữ liệu qui mô lớn trong thế giới thực. Điều này gây cản trở quá trình đổi mới. Kết quả là trì hoãn sự tiến bộ.

Yahoo muốn “tạo ra một sân chơi bình đẳng giữa giới nghiên cứu hàn lâm và nghiên cứu công nghiệp”. Đây là nguyên nhân “ông lớn ngành công nghệ” này công bố mở cửa cơ sở dữ liệu mới tới đông đảo cộng đồng nghiên cứu hàn lâm.

Các nhà nghiên cứu tại trường Đại học Carnegie Mellon (CMU), Đại học California tại San Diego, và Trung tâm khoa học dữ liệu UMass Amherst cho biết họ sẽ ứng dụng cơ sở dữ liệu mới phát hành của Yahoo để phục vụ các nghiên cứu của mình. Ví dụ, “tại CMU các nhà khoa học dữ liệu có thể nghiên cứu cách tự động nhận diện xem dạng bài báo/tin tức nào sẽ thu hút được quan tâm của dạng độc giả nào”, theo chia sẻ của Tom Mitchell, trưởng khoa Machine learning của đại học Carnegie Mellon.

Thực tế Webscope không phải là dự án mới của Yahoo. Trước đó dự án này đã cung cấp một số cơ sở dữ liệu bao gồm thông tin ẩn danh của người dùng cho mục tiêu phi thương mại. Tuy nhiên, tập dữ liệu với dung lượng 13,5 TB kể trên là lớn nhất tính đến hiện tại (Những tập dữ liệu khác chỉ tính bằng GB, như cơ sở dữ liệu gồm tập mẫu các trang dưới hình thức HTML dung lượng khoảng trên 50 GB).

Gert Lanckriet, Giáo sư khoa Kỹ thuật điện và Máy tính thuộc Đại học California, San Diego nhận định: “Việc tiếp cận với các tập cơ sở dữ liệu qui mô lớn như thế này là thiết yếu để có thể thiết kế và phát triển các thuật toán và công nghệ Machine learning đạt đến qui mô dữ liệu “lớn” thực sự. Tại Trường kỹ thuật Jacobs, UC San Diego, điều này sẽ mang lại lợi ích trực tiếp to lớn cho đa dạng các công trình nghiên cứu về Machine learning, trí tuệ nhân tạo, truy vấn thông tin, và những ứng dụng Big data khác đang được tiến hành”.

Trong khi tin tức về những đóng góp của Yahoo cho cộng đồng Machine learning lập tức nhận được hoan nghênh, thì các chuyên gia trong ngành cũng nhận ra mục đích của Yahoo không chỉ dừng lại tại đó. Đích đến lớn hơn chính là việc thúc đẩy tiến bộ trong các nghiên cứu Machine learning – một bộ phận quan trọng nảy sinh từ các nghiên cứu trí tuệ nhân tạo, tập trung phát triển các thuật toán có khả năng học hỏi và đưa ra dự báo bằng cách sử dụng dữ liệu. Nếu thành công, điều này sẽ giúp các nhà nghiên cứu tăng tốc quá trình sáng tạo, và chính Yahoo cũng sẽ hưởng lợi khi có khả năng sở hữu quá trình học hỏi này để áp dụng cho các sản phẩm của mình.

Dĩ nhiên, Yahoo không phải là công ty công nghệ lớn duy nhất trên thị trường từng đóng góp dữ liệu với qui mô lớn. Vào tháng 11 năm ngoái, Google cũng đã ra mắt dự án mã nguồn mở TensorFlow về công nghệ Machine learning. Dự án đã đem lại sức mạnh cho nền tảng tìm kiếm bằng hình ảnh Google Photos, khả năng nhận dạng giọng nói trên Google App, tính năng “Smart Reply” của Gmail, và nhiều ứng dụng khác. Ngoài ra, IBM Watson, Amazon Machine Learning, và Azure Machine Learning cũng là những cái tên đáng chú ý khác trong mảng này.

(Theo www.techcrunch.com)