Nhan đề bài báo "Nhà khoa học dữ liệu: Công việc quyến rũ nhất của thế kỷ 21"(1) đăng trên Tạp chí Kinh doanh Harvard(2) vào tháng 10/2012 đã trở thành mệnh đề phổ biến suốt thập niên qua. Vậy khoa học dữ liệu (data science) là gì và tại sao nghề khoa học dữ liệu lại quyến rũ?
Dữ liệu, Thông tin và Tri thức là ba khái niệm cơ bản của thời đại chúng ta - thời đại số. Trong những năm vừa qua, khái niệm "dữ liệu" xuất hiện với tần suất dày đặc, thường xuyên và nhiều như hai chữ "thông tin" cách đây mấy chục năm.
Nói một cách căn bản, dữ liệu là những tín hiệu thô con người quan sát, thu thập hoặc đo đạc được về các sự kiện, sự vật đã và đang diễn ra; thông tin là ý nghĩa của dữ liệu có được nhờ xử lý dữ liệu; tri thức là những hiểu biết ở mức cao hơn, có từ tổng hợp kinh nghiệm và liên kết thông tin liên quan dẫn đến quyết định hành động.
Thí dụ, trong một chuỗi cửa hàng bán lẻ, dữ liệu có thể là "cửa hàng A đã bán được 100 sản phẩm trong ngày hôm qua". Từ dữ liệu này, việc tổng hợp và so sánh có thể cho ta thông tin như "Với số sản phẩm bán được ngày hôm qua, cửa hàng A có doanh số cao hơn so với cửa hàng B, nhưng thấp hơn so với cửa hàng C". Khi hiểu biết sâu hơn về mối quan hệ giữa các thông tin, ta có thể có tri thức như "Cửa hàng A thường có doanh số cao vào thứ bảy, do đó nên tăng nguồn hàng cho cửa hàng A vào ngày đó để đáp ứng nhu cầu của khách hàng".
Con người thu dữ liệu bằng nhiều cách và dữ liệu (tín hiệu thô) thường có nhiều dạng, như chữ số, văn bản, hình ảnh, âm thanh, đồ thị, video...
Dữ liệu có thể có được qua khảo sát và điều tra; qua quan sát, ghi chép và thu thập. Dữ liệu cũng có thể có được qua đo đạc.
NHƯNG tại sao, càng ngày dữ liệu lại càng trở nên quan trọng đến thế?
Sự thay đổi có tác động lên con người nhiều nhất trong cuộc cách mạng công nghiệp lần thứ tư là môi trường sống truyền thống của chúng ta đã thành một môi trường thực-số(3), thường gọi tắt là môi trường số. Đó là việc môi trường xưa nay ta sống giờ được nối với không gian mạng, các thực thể được số hóa tạo thành dữ liệu (phiên bản số của thực thể) và nhờ đó có thể kết nối được với nhau qua internet.
Trong quá trình số hóa, lượng dữ liệu tăng lên rất nhanh nhờ những tiến bộ của khoa học và công nghệ. Chẳng hạn, đó là công cụ mới của công nghệ thông tin đã làm cho việc thu thập và lưu trữ trở nên dễ dàng và hiệu quả hơn. Đó là các nền tảng mạng xã hội cho phép mọi người chia sẻ thông tin cá nhân, ý kiến, hình ảnh, video và dữ liệu hằng ngày. Đó là các dịch vụ trực tuyến như gọi xe, mua sắm, tài chính số, trò chơi trực tuyến. Đó là công nghệ internet vạn vật dần kết nối mọi thứ trên đời, làm gia tăng dữ liệu trên toàn cầu.
Điều cốt lõi là thông tin và tri thức-đặc biệt là các tri thức không tường minh (tacit knowledge) - cần cho các quyết định và hoạt động hằng ngày của con người đều ẩn chứa trong dữ liệu thu thập được. Trong kỷ nguyên số, khi tri thức là sức mạnh và trong cuộc cách mạng công nghiệp lần thứ tư, khi "thông minh hóa" là xu thế, chính dữ liệu là nguồn tài nguyên vô giá để giúp ta thấu hiểu về các hoạt động, để tìm ra thông tin, tìm ra tri thức, để mỗi hoạt động đều có thể là hoạt động thông minh.
Khoa học dữ liệu có thể đem lại những giá trị mới cho mọi lĩnh vực kinh tế-xã hội vì ở đâu, ở ngành nghề nào cũng có rất nhiều dữ liệu, cũng đều cần thông tin và tri thức để hành động cho đúng, cho hiệu quả. Khoa học dữ liệu có thể đem lại những giá trị đó nhờ vào phương pháp luận dựa trên sự kết hợp hài hòa của ba cấu phần: lĩnh vực ứng dụng, toán học và khoa học máy tính (còn gọi là "công nghệ thông tin" hay "tin học").
Dữ liệu thô, ở các dạng khác nhau (số, văn bản, hình ảnh, âm thanh, đồ thị, video…), khi đưa vào máy tính để xử lý đều phải chuyển thành các con số. Do vậy, toán học là công cụ khoa học đầu tiên để tính toán và phân tích những con số này. Đặc biệt, thống kê toán học - các nghiên cứu thống kê nhằm tìm ra hiểu biết của một lĩnh vực ứng dụng từ một phần dữ liệu của lĩnh vực này (mẫu dữ liệu)-có vai trò nền tảng trong khoa học dữ liệu.
Dữ liệu ngày càng nhiều đã thúc đẩy ngành học máy (machine learning) phát triển vượt bậc, dẫn đến những đột phá của trí tuệ nhân tạo (AI), đồng thời mở ra những khả năng mới cho khoa học dữ liệu. Tiến bộ kỳ diệu của học máy cho thấy sức mạnh của sự phối hợp hài hòa giữa toán học và năng lực xử lý dữ liệu ngày càng tăng của khoa học máy tính.
Toán học cung cấp nền tảng lý thuyết và các kỹ thuật tính toán cho việc phát triển và tối ưu các mô hình và thuật toán học máy, giúp tăng tốc độ tính toán và hiệu suất của các mô hình. Khoa học máy tính cho phép học máy làm việc với các tập dữ liệu rất lớn và phức tạp, và các công nghệ phần cứng mới đang giúp tăng tốc độ tính toán và hiệu suất của các thuật toán học máy.
Thiếu một trong hai yếu tố toán học hay khoa học máy tính, các thuật toán đều không thể phân tích được các nguồn dữ liệu rất lớn và phức tạp ngày nay. Tuy nhiên, các thuật toán phân tích dữ liệu chỉ hoạt động tốt nếu gắn được với kiến thức và đặc thù, tức hồn cốt của lĩnh vực ứng dụng, cho việc đặt ra đúng những vấn đề cần giải quyết, cũng như điều chỉnh và xác định hợp lý các tham số của mô hình.
TRONG 10 năm qua, việc đào tạo khoa học dữ liệu đã phát triển mạnh mẽ trên toàn thế giới để đáp ứng nhu cầu ngày càng cao về nhân lực làm việc với dữ liệu và phân tích dữ liệu. Các chương trình đào tạo khoa học dữ liệu được tổ chức dưới nhiều hình thức, từ trường đại học và trung tâm đào tạo chuyên nghiệp đến các khóa học trực tuyến.
Theo thống kê của tổ chức DataSciencePrograms, vào năm 2023 đã có hơn 1.000 chương trình đào tạo ở các đại học trên thế giới về khoa học dữ liệu ở tất cả các loại hình (cấp chứng chỉ, đại học và sau đại học). Ở Việt Nam, theo thống kê chưa đầy đủ, có hơn 10 trường đang đào tạo cử nhân về khoa học dữ liệu.
Có hai nhóm chương trình đào tạo về khoa học dữ liệu, một là chương trình khoa học dữ liệu ở các trường kỹ thuật và hai là chương trình khoa học dữ liệu ở các trường chuyên ngành.
Nhóm thứ nhất nhằm đào tạo ra những người có năng lực hài hòa về toán và khoa học máy tính. Đây là một lực lượng lao động quan trọng của thời chuyển đổi số, khi người học từ các chương trình về toán lâu nay thường không biết mấy về khoa học máy tính để đem kiến thức toán của mình vào ứng dụng thực tế, và ngược lại người học từ các chương trình về khoa học máy tính thường không biết đủ về toán để phân tích dữ liệu khi nhu cầu này ngày càng tăng.
Nhóm thứ hai - tiêu biểu là các chương trình về phân tích kinh doanh mới có ở nước ta - nhằm đào tạo người có chuyên môn chính trong một lĩnh vực kinh tế-xã hội nhưng cũng có năng lực đủ sâu cả về toán và tin học, để trở thành nhóm tiên phong về một cách làm mới trong lĩnh vực của mình: phân tích và khai thác dữ liệu nhằm thấu hiểu, quyết định và hành động đúng.
Khoa học dữ liệu có vai trò to lớn đối với chuyển đổi số - "quá trình tự thay đổi cách sống và cách làm việc trên môi trường thực-số". Phương pháp luận ST-235(4) của chuyển đổi số khẳng định hai nguyên lý chủ đạo và dẫn dắt toàn bộ quá trình thay đổi: "Chuyển đổi số là quá trình tự thay đổi một cách hệ thống" và "Chuyển đổi số là quá trình liên tục đổi mới sáng tạo dựa trên dữ liệu và kết nối".
Cả hai nguyên lý đều dựa trên hai đặc điểm tiêu biểu về dữ liệu và kết nối của môi trường thực-số: Dữ liệu tạo ra kết nối làm nền tảng để thực hiện mọi hoạt động có tính hệ thống; Khai thác được dữ liệu và kết nối với khoa học dữ liệu chính là con đường hiệu quả để thực hiện đổi mới sáng tạo.
Một cách ngắn gọn, khoa học dữ liệu chính là bệ phóng cho chuyển đổi số. Mà chuyển đổi số, cho đến thời điểm này, đã hiện diện ở tất cả mọi phương diện của xã hội loài người…
(1) TH Davenport và DJ Patil, "Data Scientist: The Sexiest Job of the 21st Century".
(2) Harvard Business Journal.
(3) Hồ Tú Bảo, Nguyễn Huy Dũng, Nguyễn Nhật Quang, Hỏi đáp về chuyển đổi số, 2020.
(4) Hồ Tú Bảo và Nguyễn Nhật Quang, Chuyển đổi số thế nào? (2022).