Hồ sơ Pandora: Nhà báo - công nghệ và thời gian

Huyền Thương| 02/11/2021 13:43
Theo dõi ICTVietnam trên

Sử dụng công nghệ, các nhà báo có thể tạo ra những câu chuyện rung chuyển thế giới! Kho dữ liệu 2,94 terabyte trong “hồ sơ Pandora” đã tiết lộ bí mật về giới thượng lưu giàu có từ hơn 200 quốc gia và vùng lãnh thổ. Những người giàu này đã sử dụng các thiên đường thuế để mua tài sản và cất giấu tài sản; thậm chí tệ hơn là để trốn thuế.

Tập hồ sơ bao gồm hơn 330 chính trị gia và 130 tỷ phú Forbes, cùng những người nổi tiếng, những kẻ lừa đảo, buôn bán ma túy, các thành viên hoàng gia và lãnh đạo các nhóm tôn giáo trên khắp thế giới.

Tổ chức các Nhà báo điều tra quốc tế (ICIJ) đã dành hơn một năm để cấu trúc, nghiên cứu và phân tích hơn 11,9 triệu hồ sơ trong vụ rò rỉ Pandora Papers. ICIJ cho biết nhiệm vụ liên quan đến ba yếu tố chính: nhà báo, công nghệ và thời gian.

Pandora Papers là gì? 

Cuộc điều tra Pandora Papers là sản phẩm hợp tác báo chí lớn nhất từ trước đến nay trên thế giới, với sự tham gia của hơn 600 nhà báo đến từ 150 hãng truyền thông ở 117 quốc gia. 

2,94 terabyte dữ liệu, bị rò rỉ cho ICIJ và được chia sẻ với các đối tác truyền thông trên khắp thế giới, có nhiều định dạng khác nhau: dưới dạng tài liệu, hình ảnh, email, bảng tính, v.v... 

Hồ sơ bao gồm một lượng lớn thông tin chưa từng có về những người được gọi là chủ sở hữu các thực thể tài sản được đăng ký tại Quần đảo Virgin thuộc Anh, Seychelles, Hồng Kông, Belize, Panama, Nam Dakota và các khu vực pháp lý bí mật khác. Chúng cũng chứa thông tin về các cổ đông, giám đốc và cán bộ. Ngoài những người giàu có, nổi tiếng và khét tiếng, những người bị rò rỉ thông tin còn là những người không hề đại diện cho lợi ích công cộng và những người không xuất hiện trong báo cáo, chẳng hạn như chủ doanh nghiệp nhỏ, bác sĩ và những người khác, thường là giàu có, các cá nhân tránh xa sự chú ý của công chúng.

Hồ sơ Pandora: Nhà báo - công nghệ và thời gian - Ảnh 1.

Dữ liệu ở dạng nào? 

Hơn 11,9 triệu bản ghi trong Hồ sơ Pandora phần lớn không có cấu trúc. Đây là loại dữ liệu không thể chứa trong cơ sở dữ liệu dạng hàng và cột, và nó cũng không có mô hình dữ liệu nào liên quan. Để dễ hình dung, có thể hiểu một đoạn chữ trong một email là dữ liệu không có cấu trúc. Sự thiếu hụt về cấu trúc đã khiến dữ liệu Không cấu trúc trở nên khó tìm kiếm, quản lý và phân tích. Các ví dụ khác của dữ liệu Không cấu trúc gồm có hình ảnh, phim và các tệp âm thanh, các tệp chứa chữ cái, các nội dung từ mạng xã hội, hình ảnh từ vệ tinh, các bài thuyết trình, tệp PDF, các câu trả lời từ bản khảo sát câu hỏi mở, các trang web và bản thu từ các cuộc gọi hỗ trợ khách hàng. 

Trở về với Pandora Papers, hơn một nửa số tệp (6,4 triệu) là tài liệu văn bản, bao gồm hơn 4 triệu tệp PDF, một số trong số đó dài hơn 10.000 trang. Các tài liệu bao gồm hộ chiếu, bảng sao kê ngân hàng, tờ khai thuế, hồ sơ thành lập công ty, hợp đồng bất động sản và bảng câu hỏi thẩm định. Cũng có hơn 4,1 triệu hình ảnh và email trong vụ rò rỉ.

Bảng tính chiếm 4% tài liệu với hơn 467.000 file. Các bản ghi cũng bao gồm các trình chiếu và các tệp âm thanh và video.

Sở dĩ những thông tin về loại dữ liệu trong Pandora Papers rất đáng quan tâm vì nó cho thấy công tác điều tra, ứng dụng công nghệ của các nhà báo để “cấu trúc”, nghiên cứu và phân tích nội dung hồ sơ. 

Thông tin về Pandora Papers - 2,94 terabyte trong hơn 11,9 triệu bản ghi - đến từ 14 nhà cung cấp dịch vụ tại ít nhất 38 khu vực pháp lý. Để so sánh và hình dung, cuộc điều tra Hồ sơ Panama năm 2016 dựa trên 2,6 terabyte dữ liệu trong 11,5 triệu tài liệu từ một nhà cung cấp duy nhất, công ty luật Mossack Fonseca hiện đã không còn tồn tại. Cuộc điều tra Paradise Papers năm 2017 dựa trên vụ rò rỉ 1,4 terabyte trong hơn 13,4 triệu hồ sơ từ một công ty luật nước ngoài, Appleby, và Asiaciti Trust, một nhà cung cấp có trụ sở tại Singapore và các cơ quan đăng ký công ty của chính phủ tại 19 khu vực pháp lý bí mật.

Pandora Papers đưa ra một thách thức mới vì 14 nhà cung cấp có những cách trình bày và tổ chức thông tin khác nhau. Một số tài liệu được sắp xếp theo khách hàng, một số do các văn phòng khác nhau và có những tài liệu không có hệ thống rõ ràng nào cả. Một tài liệu đôi khi chứa các email và tệp đính kèm trị giá hàng năm trời. Một số nhà cung cấp đã số hóa hồ sơ của họ và cấu trúc chúng trong bảng tính; những người khác lưu giữ các tệp giấy đã được scan. Một số tệp PDF chứa các bảng tính phải được tạo lại thành bảng tính. Các tài liệu có đủ các thứ tiếng như tiếng Anh, Tây Ban Nha, Nga, Pháp, Ả Rập, Hàn Quốc và các ngôn ngữ khác, đòi hỏi sự phối hợp sâu rộng giữa các đối tác của các nhà báo điều tra ICIJ.

Các nhà báo đã phân tích khối dữ liệu khổng lồ này như thế nào? 

Chỉ 4% tệp trong Pandora Papers là dữ liệu có cấu trúc, được tổ chức trong bảng (bảng tính, tệp csv và một vài “tệp dbf ”).

Để khám phá và phân tích thông tin trong Pandora Papers, các nhà báo quốc tế đã xác định các tệp chứa thông tin có lợi về quyền sở hữu theo công ty và khu vực tài phán và cấu trúc nó cho phù hợp. Dữ liệu của mỗi nhà cung cấp yêu cầu một quy trình khác nhau. 

Trong trường hợp thông tin ở dạng bảng tính, ICIJ đã loại bỏ các bản sao và kết hợp nó thành một bảng tính chính. Đối với các tệp PDF hoặc tài liệu, ICIJ đã sử dụng các ngôn ngữ lập trình như Python để tự động hóa việc trích xuất và cấu trúc dữ liệu nhiều nhất có thể.

Trong những trường hợp phức tạp hơn, ICIJ sử dụng học máy và các công cụ khác, bao gồm phần mềm Fonduer và Scikit-learning, để xác định và tách các biểu mẫu cụ thể khỏi các tài liệu dài hơn. 

Một số biểu mẫu của nhà cung cấp được viết tay, yêu cầu ICIJ trích xuất thông tin theo cách thủ công. 

Sau khi cấu trúc dữ liệu, ICIJ đã sử dụng các nền tảng đồ họa (Neo4J và Linkurious) để tạo hình ảnh trực quan và làm cho chúng có thể tìm kiếm được. Điều này cho phép các phóng viên khám phá mối liên hệ giữa mọi người và công ty giữa các nhà cung cấp.

ICIJ đã chia sẻ hồ sơ với các đối tác truyền thông bằng Datashare, một công cụ phân tích và nghiên cứu an toàn do nhóm kỹ thuật của ICIJ phát triển. Chức năng tìm kiếm hàng loạt của Datashare đã giúp các phóng viên đối sánh một số nhân vật của công chúng với dữ liệu. ICIJ đã sử dụng công nghệ máy học để gắn thẻ các tệp như vậy trong Datashare, cho phép các phóng viên sử dụng tài liệu hiệu quả hơn. 

Tổ chức các Nhà báo điều tra quốc tế cho biết 150 đối tác truyền thông đã chia sẻ các mẹo, khách hàng tiềm năng và các thông tin quan tâm khác bằng cách sử dụng I-Hub toàn cầu của ICIJ, một nền tảng nhắn tin và truyền thông xã hội an toàn. Trong suốt dự án, ICIJ đã tổ chức các buổi đào tạo mở rộng cho các đối tác về việc sử dụng công nghệ ICIJ để khám phá, khai thác và hiểu rõ hơn về các tệp. 

Tất cả những cách thức phân tách và cấu trúc dữ liệu trên không thể hoàn thành nếu các nhà báo không ứng dụng công nghệ. Điều đó càng cho thấy sự quan trọng của công nghệ trong quy trình làm báo hiện nay.

Hồ sơ Pandora: Nhà báo - công nghệ và thời gian - Ảnh 2.

Kết hợp báo chí với công nghệ có thể tạo ra những câu chuyện rung chuyển thế giới!

Kết hợp báo chí với công nghệ có thể tạo ra những câu chuyện rung chuyển thế giới!

Pierre Romera, thành viên của nhóm các nhà báo điều tra quốc tế và là giám đốc công nghệ, người giám sát công nghệ và bảo mật của ICIJ, cho biết dữ liệu của ICIJ luôn được đảm bảo giữ an toàn và mạng lưới phóng viên toàn cầu của ICIJ có tất cả các công cụ họ cần để phát triển. Ông cho biết 20.000 USD là chi phí trung bình để nhập một tập dữ liệu bị rò rỉ và biến tập tài liệu đó trở thành dữ liệu mà các phóng viên có thể tìm kiếm. Việc liên tục phân tích các tập dữ liệu có thể tốn thêm hàng ngàn đô la chi phí cho máy chủ mỗi tháng. 

Pierre Romera cho biết ICIJ là một tổ chức tin tức tập trung vào công nghệ. “Chúng tôi áp dụng công nghệ ở khắp mọi nơi vì chúng tôi tin rằng đó là điều cho phép chúng tôi điều phối các cuộc điều tra quy mô lớn mà nếu không có công nghệ, sẽ không thể thực hiện được”, ông nói và cho biết nhiệm vụ cốt lõi của ông là giúp thiết lập tất cả các nền tảng mà ICIJ sử dụng, Datashare, nền tảng sử dụng để tìm kiếm tài liệu, I-Hub, tòa soạn kỹ thuật số và tất cả các nền tảng đặc biệt mà ICIJ tạo ra để phục vụ các cuộc điều tra và xử lý từng tập dữ liệu bị rò rỉ. 

Ngoài công nghệ để xử lý tài liệu như chúng ta đã thấy trong những phân tích ở trên trong vụ Hồ sơ Pandora, ICIJ cũng rất chú trọng vấn đề bảo mật - bảo mật của tất cả các nền tảng và bảo mật của tất cả người dùng - các phóng viên và đối tác cũng như các nguồn tin ẩn danh của ICIJ. 

Trong một bài phỏng vấn trên trang ICIJ, Pierre Romera cho biết một ngày mới của giám đốc công nghệ (CTO) của tổ chức các nhà báo điều tra quốc tế bắt đầu với cuộc họp cùng nhóm vì tất cả họ đều ở các quốc gia và thành phố khác nhau - đây là lúc họ quyết định sẽ làm gì mỗi ngày và xem xét mọi câu hỏi từ ngày hôm trước. Sau đó, ông dành nhiều thời gian để viết mã và hỗ trợ nhóm của mình bằng các mã riêng của họ, đảm bảo những gì do nhóm sản xuất đều tuân theo một tiêu chuẩn chất lượng và chức năng nhất định. 

Nhấn mạnh về tầm quan trọng của ứng dụng công nghệ, Pierre Romera cho biết: “Tôi tin rằng công nghệ của chúng tôi hoạt động tốt và phù hợp với các cuộc điều tra nhưng chúng tôi luôn cố gắng đảm bảo công việc của mình hoạt động tốt cho các đối tác và thích ứng với những thay đổi mà họ cần”. 

Theo tiết lộ của CTO, tất cả công nghệ ICIJ sử dụng đều được lưu trữ trên máy chủ của ICIJ vì lý do bảo mật và vì ICIJ muốn bảo vệ các nguồn tin của mình. Điều đó đòi hỏi rất nhiều công việc để tạo ra các công nghệ và duy trì chúng. Các nền tảng giao tiếp yêu cầu cập nhật thường xuyên và kiểm tra bảo mật và vì nó nằm trên các máy chủ của chính ICIJ nên rất tốn kém. Thiết lập một dịch vụ mới không chỉ là thiết lập máy chủ, nó còn là bảo trì và xử lý các bản sao lưu, cải tiến bảo mật, v.v.. 

Thứ hai - chi phí lập chỉ mục tài liệu và phân tích dữ liệu có thể khiến một số người ngạc nhiên. Việc sử dụng một tập dữ liệu và đặt nó trên Datashare có thể liên quan đến việc chạy nhiều máy chủ cùng một lúc. Và, bởi vì ICIJ không muốn bỏ lỡ bất cứ điều gì, ICIJ tốn kém đến 15.000 USD cho chi phí máy chủ, chỉ để xử lý một tập dữ liệu bị rò rỉ duy nhất. Khi hoàn tất, đôi khi ICIJ cần thực hiện phân tích dữ liệu - lấy văn bản và đặt nó ở nơi có thể dễ dàng tìm kiếm. Phân tích này yêu cầu ICIJ tạo ra nhiều dữ liệu bổ sung và có thể tốn thêm tới 6.000 USD một tháng vào hóa đơn cơ sở hạ tầng. Điều này thậm chí chưa tính đến số giờ nhân viên thiết lập và quản lý các hoạt động này. “Công việc của chúng tôi rất tốn kém tài nguyên - nhưng cũng rất đáng giá”, giám đốc công nghệ của ICIJ cho biết. 

“Hợp tác xuyên biên giới là một ví dụ về cách công nghệ thực sự có thể nâng cao hoạt động báo chí. Các nhà báo không thực sự quen với việc chia sẻ, nhưng ICIJ giúp họ thay đổi cách làm việc và tôi nghĩ điều đó thực sự có tác dụng truyền cảm hứng”, Pierre Romera nói. 

ICIJ đã tạo ra kho tài liệu lớn nhất có thể tồn tại trong một tổ chức tin tức. Và theo tiết lộ, có 60 triệu tệp dữ liệu trên máy chủ của ICIJ. Pierre Romera cho biết mục tiêu của ICIJ là có thể tạo ra các cuộc điều tra mới nhưng cũng tiếp tục đào sâu vào kho tài liệu khổng lồ mà họ đang có và xây dựng câu chuyện với các tài liệu đã có trong kho lưu trữ. ICIJ muốn tạo ra những câu chuyện làm rung chuyển thế giới, thay đổi mọi thứ.  

Trở lại với câu chuyện về Hồ sơ Pandora, ICIJ cho rằng Pandora Papers đã vạch trần một hệ thống tài chính ẩn có lợi cho những người giàu và quyền lực nhất thế giới, tiết lộ những hoạt động ẩn sâu bên trong của nền kinh tế ngầm, nền kinh tế mang lại lợi ích khổng lồ cho những người giàu có và có mối quan hệ tốt. Sự giàu có đó đến từ sự mất mát của những người nghèo khổ, của tất cả mọi người. Hồ sơ Pandora là cuộc điều tra lớn nhất trong lịch sử báo chí.

Tổ chức các Nhà báo điều tra quốc tế (ICIJ)

Tổ chức các Nhà báo điều tra quốc tế (ICIJ) do nhà báo người Mỹ Charles "Chuck" Lewis thành lập năm 1997. ICIJ ra đời vốn là một dự án của Center for Public Integrity (CPI) - tổ chức báo chí điều tra phi lợi nhuận của Mỹ với sứ mệnh “điều tra và tiết lộ các hành vi lạm dụng quyền lực, tham nhũng”.

ICIJ cho biết họ từng có các cuộc điều tra về hoạt động buôn lậu của các công ty thuốc lá đa quốc gia và các tổ chức tội phạm có tổ chức; các giao dịch của các tập đoàn quân sự tư nhân, các công ty và các nhà vận động hành lang về biến đổi khí hậu. Các cuộc điều tra gần đây hơn của ICIJ về nền kinh tế nước ngoài toàn cầu, bao gồm cả Hồ sơ Panama đoạt giải Pulitzer năm 2017, đã khiến hàng chục quốc gia tiến hành những cuộc từ chức, bắt giữ và thay đổi chính sách.

Để mở rộng phạm vi tiếp cận và tác động, ICIJ đã tách khỏi CPI và trở thành một tổ chức tin tức hoàn toàn độc lập vào đầu năm 2017. Có ba ủy ban điều hành ICIJ, đó là một hội đồng quản trị truyền thống với vai trò ủy thác; một ủy ban cố vấn báo chí gồm các phóng viên điều tra dày dặn kinh nghiệm; và Ủy ban Mạng lưới ICIJ, phục vụ các thành viên của mạng lưới toàn cầu ICIJ.

Theo giới thiệu của ICIJ, họ vừa là một tòa soạn giàu nguồn tin với nhóm phóng viên riêng, vừa là một mạng lưới phóng viên và tổ chức truyền thông toàn cầu.

Mạng lưới của ICIJ bao gồm hàng trăm phóng viên điều tra đến từ hơn 100 quốc gia và vùng lãnh thổ. ICIJ cũng hợp tác với hơn 100 tổ chức truyền thông, từ các hãng truyền thông nổi tiếng nhất thế giới, bao gồm BBC, New York Times, Guardian và Asahi Shimbun, đến các trung tâm điều tra phi lợi nhuận nhỏ trong khu vực. Ngoài đội ngũ nhân viên tại Mỹ, ICIJ có các thành viên ở Úc, Pháp, Tây Ban Nha, Hungary, Serbia, Bỉ và Ireland.

Quá trình điều tra Hồ sơ Panama và Hồ sơ Paradise, ICIJ đã thử thách khả năng tìm hiểu và triển khai nhiều công nghệ khác nhau để đẩy mạnh mối hợp tác quốc tế trong việc xử lý hàng terabyte dữ liệu - có cấu trúc và không có cấu trúc - và cách trích xuất thông tin có ý nghĩa từ dữ liệu này. Các dự án đòi hỏi nhiều dữ liệu không chỉ liên quan đến các nhà báo điều tra kỳ cựu mà còn cần đến các nhà báo dữ liệu và lập trình viên./.

(Bài viết đăng ấn phẩm in Tạp chí TT&TT số 10 - Tháng 10/2021)

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Hồ sơ Pandora: Nhà báo - công nghệ và thời gian
POWERED BY ONECMS - A PRODUCT OF NEKO