ANTS
 28/05/2015

“Cởi Trói” cho Data Scientist

“Cởi Trói” cho Data Scientist

Liệu Data Scientist có phải là công việc tuyệt vời như người ta hay nói về nó?

Mới đây Mike Driscoll – CEO của Metamarkets, công ty chuyên cung cấp nền tảng phân tích dữ liệu theo thời gian thực, đã trao đổi với AdAge xoay quanh câu chuyện thực tế công việc của nhà khoa học dữ liệu (Data Scientist). Nhưng quan trọng hơn là cách  giảm tải cho họ khỏi những công việc vụn vặt, nhằm phát huy tối đa khả năng hiểu sâu sắc dữ liệu (Data Insight).

Mike bắt đầu câu chuyện bằng việc quay lại thời “chân ướt chân ráo” mới bước vào lĩnh vực truyền thông số. Đó là thời điểm 2008, khi Mike 31 tuổi và là một tiến sĩ trẻ “mới ra lò” và bắt đầu với vai trò nhân viên tư vấn các giải pháp phân tích dữ liệu sử dụng cho một nền tảng Ad Server di động, công việc đầu tiên trong ngành của Mike.

Lúc đó Mike phải học lại những kiến thức thống kê đã “trùm mền” từ lâu. Sau đó hạ quyết tâm xử lý dữ liệu lưu trữ trong khoảng thời gian sáu tháng trước đó. Cặm cụi với các dòng lệnh Unix (Unix commands), xử lý các tập tin dữ liệu rải rác khắp các thư mục, đặt lại tên cho nhất quán và đồng nhất các kiểu định dạng dữ liệu.

blog_2015-05_DataScientist-MichaelDriscoll

Mike Driscoll – CEO của Metamarkets

“Người ta thuê tôi với mục đích xử lý các thuật toán phân tích cao cấp. Nhưng công việc thực tế không phải như thế. Khắc phục lỗi hệ thống Ad Server đôi lúc chỉ cần hàm count, average hay “làm đẹp” biểu đồ nhạt nhẽo”. Mike tả lại công việc trước đó của mình.

Rõ ràng sự thật không mấy vui vẻ khi nói như vậy về công việc của nhà khoa học dữ liệu. Họ phải làm những công việc đơn thuần về xử lý dữ liệu thay vì tiến hành các hoạt động nghiên cứu, học hỏi chuyên sâu từ dữ liệu.

Vì sao người ta lại lãng phí tấm bằng tiến sĩ của Mike như vậy? Trong khi năng lực của nhà khoa học dữ liệu là xây dựng những mô hình dự báo mà lại được giao xử lý dữ liệu thuần túy?

Nguyên nhân chủ yếu đến từ việc các tổ chức Marketing đã đánh giá thấp công đoạn “làm sạch” dữ liệu, cũng như thiếu hụt các công cụ báo cáo cho người làm kinh doanh. Với biệt danh – nhà khoa học dữ liệu – khi có bất kỳ vấn đề gì phát sinh liên quan tới dữ liệu thì họ trở thành cái tên đầu tiên được nhắc đến để xử lý. “CIO của một công ty quảng cáo gần đây đã nói với tôi rằng công ty của anh ta đã phải tiêu tốn hơn 50% thời gian chỉ để thu thập và làm sạch dữ liệu”. Mike bình luận thêm.

May thay vấn đề có cách giải quyết!

Cơ bản nhất doanh nghiệp nên thuê một nhóm phát triển phần mềm có kinh nghiệm để hợp tác với Data Scientist như những kỹ sư dữ liệu (Data Engineer). Họ có nhiệm vụ xây dựng các qui trình, chuẩn hóa, làm sạch xử lý dữ liệu, đảm bảo tương thích khi chuyển tải dữ liệu giữa các hệ thống nội bộ và bên ngoài.

Mấu chốt vấn đề là các Data Engineer sẽ giúp tổ chức xây dựng cơ sở hạ tầng phục vụ điều hành hoạt động kinh doanh hiệu quả. Bên cạnh đó họ cũng quyết định khả năng mở rộng của dữ liệu thế nào, lưu trữ nội bộ hay trên Cloud, đầu công việc nào tự làm, đầu nào thuê bên ngoài sẽ hiệu quả hơn.

Với điều kiện như vậy sẽ giảm tải công việc các nhà khoa học dữ liệu. Họ chỉ tập trung và tận dụng nhóm kỹ năng đặc biệt cho xử lý phân tích phức tạp, phù hợp với chuyên môn.

Cách đây 7 năm, lúc Mike bắt đầu vào nghề, khu vực Madison Avenue với biệt danh “kinh đô quảng cáo” toàn cầu  đã ít quan tâm về khoa học dữ liệu. Nhưng giờ đây nhu cầu làm chủ dữ liệu không còn “nhỏ giọt” mà biến thành “cơn đại hồng thủy”. Cũng chính là lúc doanh nghiệp ở đây kỳ vọng giá trị mang lại từ ngành khoa học mới này ngày càng lớn hơn bao giờ hết. “Miền đất hứa” dữ liệu đã hình thành và đang cần được khai phá.

Doanh nghiệp nên “cởi trói” nhà khoa học dữ liệu khỏi các công việc lặt vặt hàng ngày như họ vẫn đang làm. Đầu tư tiếp tục vào con người và phần mềm bổ sung sẽ giúp các khoa học gia dữ liệu mang lại thịnh vượng cho tổ chức ở tương lai gần.

(Theo www.adage.com)

Related Posts