Báo chí đang chuyển mình từ “sản xuất hàng loạt” sang “may đo nội dung”
Trong kỷ nguyên số và AI, dữ liệu trở thành nền tảng sống còn của báo chí hiện đại, giúp chuyển đổi từ sản xuất hàng loạt sang cá nhân hóa nội dung. Tuy nhiên, bên cạnh cơ hội phát triển, việc khai thác dữ liệu cũng đặt ra thách thức lớn về bảo mật và quyền riêng tư độc giả.
Với dữ liệu, báo chí đang chuyển mình từ “sản xuất hàng loạt” sang “may đo nội dung”
Trong kỷ nguyên số, dữ liệu không chỉ là con số, mà là nhịp đập của tòa soạn hiện đại. Mỗi cú nhấp chuột, thời gian dừng lại ở một bài viết, hay chủ đề được tìm kiếm nhiều nhất… đều phản ánh nhu cầu và thói quen tiêu thụ tin tức của độc giả. Với dữ liệu, báo chí đang chuyển mình từ “sản xuất hàng loạt” sang “may đo nội dung”. Các tòa soạn tiên tiến trên thế giới và tại Việt Nam đang dận dụng sức mạnh của dữ liệu để nâng cao chất lượng và hiệu quả nội dụng.
Điển hình như, VnExpress đã gây ấn tượng khi xây dựng bản đồ tương tác theo dõi cơn bão Yagi, minh chứng cho cách báo chí dữ liệu có thể mang thông tin thời sự đến gần hơn với công chúng theo cách trực quan và dễ hiểu. Đài truyền hình quốc gia VTV, sử dụng hệ thống VTV Ratings cung cấp dữ liệu thời gian thực về hành vi xem truyền hình, giúp tối ưu khung giờ phát sóng và lựa chọn nội dung. Bên cạnh đó, các báo điện tử như báo Nhân Dân, Thanh Niên, Tuổi trẻ, ZNews cùng một số tòa soạn khác cũng đang tích cực cá nhân hóa trải nghiệm người dùng.
Tại Báo Nhân Dân, hệ thống quản trị nội dung hiện đại tích hợp AI cho phép đề xuất bài viết theo sở thích cá nhân, hỗ trợ sản xuất podcast, video, thậm chí tóm tắt và kiểm duyệt nội dung thông qua máy học. ZNews sử dụng dữ liệu hành vi để chia cụm độc giả theo độ tuổi và thời gian đọc; trong khi Thanh Niên đang thử nghiệm gợi ý tin tức tự động dựa trên mô hình tương tác người dùng. Không chỉ định hình nội dung, dữ liệu còn là công cụ chiến được trong kinh tế báo chí.

Phát biểu tại phiên hội thảo chuyên đề “Dữ liệu là gốc của tòa soạn hiện đại”, ông Nguyễn Hoàng Nhật - Phó Trưởng Ban Nhân dân điện tử, Báo Nhân Dân đã nhấn mạnh tầm quan trọng của dữ liệu trong báo chí hiện nay rằng: “AI dù hiện đại như thế nào nhưng nếu không có dữ liệu thì AI biết lấy gì mà “ăn” đúng không? Nếu không có dữ liệu thì đối với báo chí số bây giờ thì cũng sẽ không kiếm được tiền đúng không?”
Tầm quan trọng của dữ liệu người dùng, trong đó có thói quen, sở thích và cách độc giả tương tác với nội dung, cũng được bà Nguyễn Thu Hương, Phó Tổng Biên tập VnExpress nhấn mạnh và làm rõ thông qua câu chuyện thực tiễn về hành trình khai thác và sử dụng dữ liệu tại VnExpress, một trong những báo điện tử tiếng Việt có lượng độc giả lớn nhất hiện nay.

Theo bà Hương, ngay từ khi thành lập vào năm 2001, VnExpress đã bắt đầu thu thập dữ liệu với các chỉ số cơ bản như lượt truy cập trang (page hits). Tuy nhiên, phải đến hơn 10 năm sau, khi Google Analytics Universal ra mắt, tòa soạn mới có thể phân tích chuyên sâu hơn về hành vi và mức độ tương tác của người đọc đối với từng sản phẩm nội dung.
Ban đầu, việc sử dụng dữ liệu còn sơ khai, chủ yếu để điều phối nội dung trang nhất. Tuy nhiên, những câu hỏi phức tạp hơn dần xuất hiện (như tại sao views lại giảm? Độc giả của chúng ta là ai? Họ có trung thành không? Họ đánh giá chúng ta thế nào? Làm sao chúng ta có thể tương tác với họ?…), đã thúc đẩy VnExpress xây dựng nhóm dữ liệu nội bộ vào năm 2019. Mục tiêu là sử dụng dữ liệu để phát triển độc giả trung thành và tăng trưởng doanh thu, tập trung vào việc điều phối sản xuất hiệu quả.
“Với chúng tôi, “dữ liệu là nền tảng” giúp trả lời các câu hỏi quan trọng; là cơ sở để thử nghiệm, kiểm chứng các giả thiết hành động của mình”, Phó Tổng Biên tập VnExpress nhấn mạnh.
VnExpress phân loại dữ liệu thành 5 nhóm chính: dữ liệu độc giả, dữ liệu hành vi, dữ liệu bài viết, dữ liệu quảng cáo và dữ liệu tương tác. VnExpress đã xây dựng ba hệ thống dữ liệu chính: VnExpress Analytics (cho Ban Biên tập), Audience Data Platform (cho hành vi độc giả, cá nhân hóa) và Sales Inventory System (cho quảng cáo).
Theo bà Hương, VnExpress sử dụng dữ liệu trong hầu hết công đoạn của hoạt động điều phối sản xuất, từ việc tìm kiếm đề tài cho đến sắp xếp mặt trang. Dữ liệu bài viết hàng ngày từ VnExpress Analytics được phân tích theo từng ban để tìm ra cơ hội cải thiện.
Nhu cầu bạn đọc (User needs) được VnExpress áp dụng từ đầu 2024, với mỗi chủ đề xác định các nhu cầu có thể khai thác, sau đó kiểm chứng lại với dữ liệu để đánh giá hiệu quả. Phân tích theo thời gian thực (Realtime Analytics) cung cấp dữ liệu thời gian thực, cho biết nội dung nào đang thu hút, xu hướng thế nào, đưa lên trang nhất lâu chưa,… giúp thư ký tòa soạn ra quyết định tăng, giảm mức độ ưu tiên hoặc thay thế trên mặt trang.
Từ những kinh nghiệm triển khai thực tế tại tòa soạn, Phó Tổng Biên tập VnExpress nhấn mạnh: “Dữ liệu là nền tảng, không phải “đũa thần”, sử dụng dữ liệu hiệu quả đòi hỏi phải thực hành liên tục, kiên trì, chấp nhận sai và sửa. Dữ liệu phải phục vụ cho một mục tiêu cụ thể, nếu không có thể đó là “rác” chứ không phải “vàng”.
Theo bà Hương, dữ liệu có thể giúp trả lời các câu hỏi, cũng có thể giúp ra quyết định. Nhưng đừng áp dụng việc ra quyết định chỉ dựa trên dữ liệu, hãy để dữ liệu bổ trợ cho việc ra quyết định đó. Triển khai các hệ thống tổ chức, lưu trữ, vận hành dữ liệu có thể sẽ mất nhiều thời gian và công sức. Đồng thời, cân nhắc lựa chọn giữa tự xây dựng hệ thống (Build) hay mua giải pháp có sẵn (Buy), tuỳ vào khả năng công nghệ của mỗi tòa soạn.
Chia sẻ về lý do VnExpress chọn hướng tự phát triển hệ thống thay vì sử dụng các công cụ bên ngoài, bà Hương cho biết đây là quyết định dựa trên nhiều yếu tố: chi phí, yêu cầu bảo mật dữ liệu, khả năng kiểm soát lỗi và mức độ linh hoạt trong tùy chỉnh - điều mà các nền tảng đối tác thường bị giới hạn.
Bà cũng thẳng thắn thừa nhận, việc xây dựng đội ngũ phân tích dữ liệu là một trong những thách thức lớn, do sự khác biệt trong tư duy giữa nhà báo và chuyên gia dữ liệu. Những nhân sự đến từ các lĩnh vực ngoài báo chí thường cần thời gian để nắm bắt đặc thù ngành và bối cảnh toà soạn. Vì vậy, bà nhấn mạnh rằng nhân sự phân tích dữ liệu là cần thiết, nhưng cần hỗ trợ để họ hiểu về về báo chí, bối cảnh, từ đó sử dụng dữ liệu, phân tích để đưa ra các khuyến nghị có ích.
Bên cạnh đó, các chỉ số phải được theo dõi và báo cáo định kỳ hàng tuần, hàng tháng và hàng quý bởi nhóm dữ liệu. Nếu có thể hãy sử dụng nhiều hơn một hệ thống ghi nhận dữ liệu (GA4, Yandex) để có thể đối chứng khi cần.
4 nhóm giải pháp giúp cân bằng giữa khai thác dữ liệu và bảo vệ quyền riêng tư
Dữ liệu không chỉ là tài nguyên quý giá mà còn là nền tảng giúp các tòa soạn nâng cao chất lượng nội dung, tối ưu hóa hiệu quả truyền tải và đáp ứng ngày càng chính xác nhu cầu của độc giả. Tuy nhiên, việc khai thác dữ liệu cũng đặt ra không ít thách thức, đặc biệt là bài toán cân bằng giữa cá nhân hóa trải nghiệm và bảo vệ quyền riêng tư.
Đưa ra quan điểm về vấn đề này, ông Ngô Mạnh Hà, Giám đốc Công ty TechX, cho biết dữ liệu trong lĩnh vực báo chí chủ yếu xoay quanh dữ liệu cá nhân của độc giả, gồm hai nhóm chính: dữ liệu định danh và dữ liệu hành vi. Những dữ liệu này thường được thu thập thông qua phỏng vấn, hình ảnh, hành vi tương tác và khảo sát. Đặc biệt, dữ liệu liên quan đến hình ảnh và vị trí là rất nhạy cảm.
Ông Hà cũng chỉ ra hàng loạt thách thức phổ biến hiện nay mà các tòa soạn phải đối mặt: Thiếu quy trình quản trị dữ liệu cá nhân; Mâu thuẫn giữa quyền đưa tin và quyền riêng tư; Áp lực thương mại hóa dữ liệu người đọc; Rủi ro khi chia sẻ dữ liệu với bên thứ ba; Năng lực kỹ thuật bảo mật thông tin còn hạn chế.

Để khắc phục những vấn đề này, Giám đốc Công ty TechX đề xuất 5 nguyên tắc cốt lõi cần được các tòa soạn tuân thủ: Minh bạch - Công khai mục đích thu thập dữ liệu. Tối giản - Chỉ thu thập dữ liệu thực sự cần thiết; Bảo mật - Áp dụng mã hóa và phân quyền; Đồng thuận - Người dùng phải được thông báo và đồng ý; Tôn trọng quyền được quên và ẩn danh.
Đặc biệt, từ kinh nghiệm xây dựng các hệ thống dữ liệu, ông cũng đã đề xuất 4 nhóm giải pháp nhằm xây dựng một hệ thống dữ liệu vừa phục vụ mục tiêu kinh doanh, vừa đảm bảo quyền riêng tư của người dùng.
Thứ nhất, ban hành chính sách nội bộ về dữ liệu cá nhân, có bộ quy tắc ứng xử trong thu thập, xử lý, chia sẻ dữ liệu. Chúng ta nên áp dụng các tiêu chuẩn quốc tế như ISO 27701, GDPR, hoặc các quy định pháp luật về bảo vệ dữ liệu cá nhân của Việt Nam vào quá trình khai thác và sử dụng dữ liệu.
Điều này không chỉ nhằm bảo đảm tính pháp lý, uy tín và cũng là vừa đảm bảo an toàn cho doanh nghiệp/tổ chức, giúp phòng tránh những sự cố rò rỉ dữ liệu cá nhân có thể gây ra hậu quả nghiêm trọng, đặc biệt là ảnh hưởng tiêu cực đến danh tiếng doanh nghiệp.
Thứ hai, nâng cao bảo mật kỹ thuật thông qua việc xây dựng các hệ thống mã hóa, cùng với việc thiết lập chính sách và cơ chế phân quyền truy cập. Đây là nền tảng để xây dựng các hệ thống quản trị dữ liệu (data governance) và nền tảng dữ liệu (data platform) trong tổ chức.
Trong đó, cần quy định rõ vòng đời dữ liệu - bao gồm thời điểm dữ liệu được thu thập, thời gian lưu trữ, chu kỳ sao lưu, thời hạn ẩn danh hóa, thời điểm làm mới hoặc xóa bỏ dữ liệu. Những yếu tố này cần được cụ thể hóa thành các giải pháp và quy định kỹ thuật trong quá trình xây dựng và thiết kế các hệ thống kỹ thuật về mặt lưu trữ và xử lý dữ liệu tại các doanh nghiệp (DN).
Thứ ba, cần chia sẻ dữ liệu một cách có trách nhiệm. Khi dữ liệu được chia sẻ cho bên thứ ba để cùng khai thác, ngoài các cam kết hợp tác, bắt buộc phải có những quy định rõ ràng về việc mã hóa, ẩn danh hoặc thậm chí là làm mờ dữ liệu trước khi chia sẻ.
Thứ tư, đào tạo phóng viên, kỹ thuật viên về đạo đức số. Cần xây dựng một văn hóa về dữ liệu trong toàn tổ chức hay còn được gọi là đạo đức số. Theo đó, các tòa soạn, DN, tổ chức có thể triển khai các chương trình đào tạo nhằm nâng cao nhận thức cho đội ngũ phóng viên, biên tập viên, kỹ thuật viên và các bộ phận liên quan về tầm quan trọng của dữ liệu cá nhân, cũng như những rủi ro nghiêm trọng mà tổ chức có thể đối mặt nếu xảy ra sự cố rò rỉ thông tin.
Có thể thấy, dữ liệu đang ngày càng trở thành nền tảng cho hoạt động báo chí hiện đại – từ định hướng nội dung, cá nhân hóa trải nghiệm người dùng, đến tối ưu vận hành và phát triển kinh tế báo chí. Tuy nhiên, song hành với cơ hội là những thách thức không nhỏ về bảo mật, đạo đức và quyền riêng tư.
Việc khai thác hiệu quả dữ liệu không chỉ đòi hỏi hạ tầng kỹ thuật và chiến lược rõ ràng, mà còn cần sự thay đổi về tư duy và văn hóa tổ chức. Chỉ khi báo chí có thể vừa làm chủ dữ liệu, vừa bảo vệ tốt độc giả, thì mới thực sự phát huy được vai trò dẫn dắt trong kỷ nguyên số - nơi thông tin phải đi kèm với trách nhiệm, và công nghệ phải phục vụ con người./.