Công nghệ học máy trong báo chí
Học máy là một tập hợp con của trí tuệ nhân tạo giúp đào sâu các báo cáo theo hướng dữ liệu. Đó là một kỹ thuật không chỉ hữu ích trong thời đại dữ liệu lớn - mà còn là một kỹ thuật bắt buộc trong thời đại này.
Quy tắc bất thành văn về thời điểm sử dụng công nghệ học máy là: khi con người không thể tự phân tích dữ liệu một cách hợp lý - chúng ta đang nói hàng trăm nghìn dòng dữ liệu trên bảng tính - thì đã đến lúc đưa máy móc vào.
Đối với các nhà báo mới bắt đầu làm quen với công nghệ học máy, có thể hiểu học máy có nhiều điểm tương đồng với thống kê. Clayton Aldern, phóng viên dữ liệu cấp cao của Grist (Grist là một tạp chí trực tuyến phi lợi nhuận của Mỹ được thành lập vào năm 1999 chuyên các bài viết về môi trường), đã sử dụng học máy để xác định các giếng dầu bị phân loại sai ở Texas và New Mexico. Clayton Aldern là phóng viên đã tham gia trong loạt bài viết đoạt giải Waves of Abandonment của Grist.
Sử dụng công nghệ học máy một cách có giám sát đã mang lại “hiệu quả đáng kinh ngạc”, bằng cách sử dụng sức mạnh tính toán và lượng lớn dữ liệu chất lượng, do con người gắn nhãn. “Nhưng đó không phải bước đột phá của thuật toán, mà đó là những gì thuật toán có thể làm khi được kết hợp với dữ liệu quy mô lớn và các tài nguyên tính toán”, Meredith Whittaker, Giáo sư Nghiên cứu Minderoo tại Đại học New York và là người đồng sáng lập kiêm giám đốc AI Now Institute, nói.
Điều quan trọng cần ghi nhớ, những kết quả đột phá của học máy không có nghĩa là không có sự tham gia của con người. Ngược lại, hiệu quả của học máy nói chung, và đối với báo chí, không chỉ phụ thuộc vào khả năng tiếp cận dữ liệu có chất lượng, được gắn nhãn và tài nguyên tính toán, mà còn là kỹ năng và năng lực cơ sở hạ tầng của những người kết nối các phần này lại với nhau. Nói cách khác, các tòa soạn tận dụng học máy để đưa tin đều có những nhà báo theo sát từng bước của con đường ứng dụng công nghệ.
Emilia Díaz-Struck, biên tập viên nghiên cứu tại International Consortium of Investigative Journalists (ICIJ), cho biết “Học máy có một thành phần lớn là con người. Nó không phải là phép thuật, nó cần thời gian và nguồn lực đáng kể”. ICIJ, tổ chức nổi tiếng với vụ điều tra hồ sơ Panama và Pandora vừa qua, đã sử dụng công nghệ học máy trong các cuộc điều tra trong hơn năm năm. “Các phóng viên, biên tập viên, kỹ sư phần mềm, học giả làm việc cùng nhau - và đó là nơi điều kỳ diệu xảy ra”.
Khi nào học máy trở thành công cụ làm báo phù hợp?
Thiết kế và vận hành một chương trình học máy là một nhiệm vụ lớn - và có rất nhiều chương trình đào tạo miễn phí hoặc giá cả hợp lý dành cho các nhà báo và tòa soạn để trau dồi kỹ năng. Nhưng làm thế nào để công nghệ học máy phù hợp với quy trình làm báo? Dưới đây là một số cách.
Quá tải thông tin: phân loại để lọc ra những thông tin cần thiết
Khi Tổ chức các nhà báo điều tra quốc tế, một tòa soạn phi lợi nhuận và là mạng lưới các nhà báo tập trung ở Washington, DC, có được các tệp thông tin tạo nên hồ sơ Pandora (Pandora Papers) - giống như các tác phẩm điều tra bao gồm cả Panama Papers, Paradise Papers - lượng thông tin ban đầu gây ấn tượng rất mạnh.
“Các phóng viên đã bị choáng ngợp”, Díaz-Struck nói. Trước khi có thể kể chuyện, họ cần biết đang có những khối lượng thông tin gì và những thông tin gì họ không cần đến. Để thực hiện điều này, các phóng viên ICIJ đã sử dụng học máy để sắp xếp và phân cụm, cùng với các phương pháp khác. “Đầu tiên, nó hoạt động giống như một bộ lọc thư rác”, Díaz-Struck cho biết khi đề cập đến một ứng dụng học máy phổ biến, ứng dụng này đôi khi cũng xác định xác suất email là thư rác hay không phải là thư rác. Nhiệm vụ nghe có vẻ đơn giản nhưng không hề dễ dàng.
“Giống như một trận đấu vậy. Dữ liệu lớn ở một bên và mặt khác, tất cả các nhà báo, phóng viên, nhà phát triển phần mềm và biên tập viên ở một bên”, Díaz-Struck nói.
Cuối cùng, học máy đã giúp ICIJ tập hợp dữ liệu thành các nhóm dễ quản lý hơn và cùng với các công nghệ ICIJ như Datashare và các phương pháp phân tích dữ liệu khác, nhóm đã xử lý dữ liệu lớn. Song song đó, hơn 600 phóng viên từ khắp nơi trên thế giới đã thực hiện nỗ lực khổng lồ trong việc kết nối các dấu chấm giữa các báo cáo về việc trốn thuế và các giao dịch tài chính đáng ngờ của hàng trăm nhà lãnh đạo và tỷ phú thế giới.
Sử dụng công nghệ học máy để phát hiện những thông tin sai lệch
Một cách sử dụng phổ biến khác của học máy là phát hiện những phân loại sai. Đây là sự cố được thực hiện vào năm 2015, khi Ben Poston, Joel Rubin và Anthony Pesce của tờ The Los Angeles Times sử dụng học máy và phát hiện Sở Cảnh sát Los Angeles đã phân loại nhầm khoảng 14.000 vụ hành hung nghiêm trọng là “tội nhẹ” trong thời gian 8 năm. Việc phân loại sai khiến mức độ tội phạm của thành phố có vẻ thấp hơn mức chính xác.
Tương tự, cuộc điều tra của BuzzFeed News về máy bay bí mật giám sát các băng đảng ma túy ở Mexico, của các phóng viên Peter Aldhous và Karla Zabludovsky, đã sử dụng thuật toán Random Forests (thuật toán học có giám sát), một mô hình thống kê nổi tiếng để phân loại, xác định các máy bay giám sát tiềm năng.
Sự minh bạch tạo dựng niềm tin. “Điều rất quan trọng là không chỉ nói những gì bạn biết mà hãy giải thích tại sao bạn biết điều đó”, Aldhous nói, người đã giải thích rằng tính minh bạch là giá trị nền tảng tại Buzzfeed News. “Khả năng nhìn sâu hơn của các phương pháp phân tích dữ liệu rất tốt. Nó giải thích lý do tại sao chúng tôi có con số”.
Học hỏi từ người đi trước
Nếu việc bắt đầu ứng dụng công nghệ học máy có vẻ khó khăn, thì một trong những lợi ích của khoa học dữ liệu là cộng đồng nguồn mở, Aldern nói. Các nhà báo dữ liệu chia sẻ mã và dữ liệu đào tạo trên GitHub, ở đây các nhà báo dữ liệu hoặc nhà khoa học dữ liệu khác đều có thể tiếp cận những chia sẻ này.
Đừng ngại việc sao chép - dán. Hãy học hỏi, mượn chính các thuật toán đã được những nhà báo đi trước thử nghiệm và ứng dụng. Đối với các nhà báo dữ liệu mới làm quen với công nghệ học máy, có thể theo dõi công việc của những người khác để học hỏi.
Các tòa soạn thiếu nguồn lực có thể xem xét quan hệ đối tác với các học giả hoặc công ty. ICIJ đã hợp tác với Đại học Stanford và các công ty độc lập để giải quyết các vấn đề dữ liệu đặc biệt nghiêm trọng trong khi vẫn duy trì tính độc lập của báo chí - điều quan trọng khi xử lý các tài liệu nhạy cảm cho một câu chuyện lớn chưa từng bị điều tra.
ICIJ không thuê ngoài công việc đào tạo dữ liệu để đảm bảo độ chính xác, mặc dù họ đã sử dụng một công cụ học máy có tên là Snorkel để giúp phân loại văn bản và hình ảnh. Khi các nhà báo hoặc học giả độc lập cần các công ty công nghệ tiếp cận sức mạnh tính toán hoặc tài nguyên trí tuệ để tiến hành nghiên cứu, các công ty đó sẽ hỗ trợ. Díaz-Struck nói: “Trong kỷ nguyên dữ liệu lớn, các nhà báo sẽ không biến mất, họ trở nên cần thiết hơn bao giờ hết”.
Những câu chuyện trên cho thấy một bằng chứng thú vị về khái niệm cách các phóng viên có thể tận dụng các công cụ mới để từ đó có những phát hiện đáng quan tâm từ những hồ sơ công khai khô khan. Điều này đang đưa báo chí dữ liệu lên một cấp độ tiếp theo, nơi các nhà báo có thể thoải mái sử dụng công nghệ để thực hiện một số hoạt động đối sánh, sắp xếp, nhóm thông tin, phát hiện ra những bất thường - điều này thực sự có ích với các tập dữ liệu đặc biệt lớn.
Vì sao Google muốn các nhà báo học về công nghệ Machine Learning?
Trí tuệ nhân tạo đã tác động đến mọi ngành công nghiệp trên thế giới. Nếu chúng ta nhìn vào ngành công nghiệp báo chí, truyền thông, sẽ thấy nhiều tòa soạn báo đã triển khai các kỹ thuật AI và học máy khác nhau để tự động tạo ra các bài báo trên quy mô lớn. Ở đây, các tòa soạn có thể sử dụng AI/ML để phát triển khán giả, xây dựng lòng trung thành, nắm giữ thông tin chi tiết về dữ liệu tốt hơn và tăng tương tác với độc giả.
Những tòa soạn báo nổi tiếng trên thế giới như Bloomberg đã sử dụng công nghệ AI/ML để tự động trích xuất các điểm dữ liệu chính từ báo cáo thu nhập của hàng nghìn công ty mỗi tháng/quý. Công ty Truyền thông Công cộng Phần Lan sử dụng trợ lý tin tức thông minh Voitto cung cấp tin tức được cá nhân hóa cho các độc giả. Tờ báo danh tiếng của Mỹ Wall Street Journal sử dụng hình thức thu phí dựa trên công nghệ ML mang lại các gói cước đăng ký được cá nhân hóa dựa trên thói quen đọc. Reuters đã phát triển News Tracer và Lynx Insight. Cả hai công cụ này đều sử dụng công nghệ học máy và trí tuệ nhân tạo để hỗ trợ các nhà báo Reuters trong quá trình thu thập tin tức.
Nhà báo có nên học các kỹ thuật ML? Theo Google, câu trả lời là có. Google đã giới thiệu một khóa học về học máy trong khuôn khổ Sáng kiến Tin tức của Google (Google New Initiative) với sự hợp tác của JournalismAI và VRT News. Google đã và đang làm việc cùng với các tổ chức truyền thông và các nhà tư vấn báo chí để lên chiến lược những công cụ AI có thể mang lại lợi ích cho các phóng viên trong công việc của họ. Gã khổng lồ công nghệ đã tung ra các khóa đào tạo miễn phí về học máy và trí tuệ nhân tạo để giúp họ trong quy trình làm việc.
Theo thời gian, Google đã cung cấp cho các nhà báo những công cụ dữ liệu tốt hơn. Ví dụ, khi hợp tác với Big Local News của Đại học Stanford và Pitch Interactive, Google News Initiative đã xây dựng Trình lập bản đồ ca nhiễm COVID-19 để giúp các nhà báo địa phương có thể dễ dàng nhúng hình ảnh bản đồ COVID-19 cập nhật vào trang web của họ cho người đọc.
Trong những năm tới, các công nghệ tự động hóa sẽ có tác động lớn đến cách các nhà báo làm việc. Việc học các công cụ AI/ML cơ bản trở thành một yếu tố quan trọng do các quy trình đọc báo cáo định kỳ đang được tự động hóa. Không chỉ để chuẩn bị cho bản thân nhà báo trước xu thế tự động hóa trong tương lai, AI/ML có giá trị to lớn trong những thứ như kiểm tra thực tế và thu thập thông tin chi tiết từ các nguồn dữ liệu khác nhau.
Việc ứng dụng trí tuệ nhân tạo, học máy và các thuật toán sẽ tác động sâu sắc đến ngành báo chí. Cho dù đó là văn bản, video, âm thanh hay những thứ khác, thông tin có thể được biểu thị bằng số để có được thông tin chi tiết sâu sắc. Vì vậy, một nhà báo cần phải có kiến thức về AI, ML để tận dụng tất cả các công cụ sáng tạo này và cung cấp nội dung, thông tin tốt hơn cho độc giả.
Google cho biết do đó, các nhà báo bắt buộc phải nắm bắt công nghệ, đạt được một số kiến thức chuyên môn để sử dụng các sản phẩm AI khác nhau. Khóa học học máy mới nhất đã trở thành một phần trong các công cụ đào tạo miễn phí của Google dành cho các tổ chức truyền thông. Theo Google, điều này sẽ thúc đẩy nỗ lực của các nhà báo đang phổ biến thông tin quan trọng đến độc giả của họ.
“Đại dịch COVID-19 đưa lại một khoảng thời gian khó khăn đối với các nhà báo và tổ chức tin tức trên toàn cầu, khi họ cố gắng đánh giá ảnh hưởng của COVID-19 đối với cuộc sống. Khóa học về công nghệ AI, ML bổ sung cho những thử nghiệm cộng tác mới trong báo chí và cũng là nỗ lực cho thấy khả năng biến đổi của AI và học máy trong việc định hình nhà báo, và nền báo chí của tương lai”, Giám đốc Mattia Peretti tại JournalismAI, một tổ chức hàng đầu hoạt động trong Sáng kiến Google News, cho biết.
Khóa học về Machine Learning dành cho nhà báo tập trung vào việc giúp các nhà báo hiểu được các nguyên tắc cơ bản đằng sau học máy và cách các nhà báo thực sự có thể đào tạo một mô hình học máy.
Các nhà báo có thể đánh giá những trường hợp sử dụng công nghệ học máy, thu thập dữ liệu, định dạng dữ liệu, chọn một thuật toán (chẳng hạn như Ngôn ngữ tự nhiên Google Cloud AutoML) để xây dựng mô hình.
Theo Google, khóa học về học máy trong báo chí cũng hướng tới loại bỏ thành kiến, nguồn gốc của thành kiến và ngăn chặn sự thiên vị trong các mô hình để các nhà báo không đưa tin sai, đưa tin thiên lệch./.
Tài liệu tham khảo:
1. https://analyticsindiamag.com/
2. https://datajournalism.com/
3. https://futurism.com
(Bài đăng ấn phẩm in Tạp chí TT&TT số 1 tháng 1/2022)