Dữ liệu mở: Giải pháp để xóa bỏ khoảng cách dữ liệu

Chuyển động ICT - Ngày đăng : 09:26, 15/03/2021

Theo tính toán của Tổ chức Hợp tác và Phát triển Kinh tế (OECD), nhiều quốc gia sẽ hưởng mức tăng trưởng GDP cao hơn khoảng 1 - 2,5% nếu dữ liệu được trao đổi rộng rãi hơn trên quy mô toàn cầu.


Dữ liệu mở: Giải pháp để xóa bỏ khoảng cách dữ liệu  - Ảnh 1.

Kết quả này dựa trên những giả định về triển vọng hoặc cơ hội kinh doanh mới và số lượng startup có thể được thành lập nhờ "mở" dữ liệu. Một số nhà kinh tế cũng đồng tình rằng khả năng sẵn sàng tiếp cận dữ liệu sẽ mang lại rất nhiều lợi ích sâu rộng, bởi dữ liệu là một loại tài nguyên "vô song".

Giá trị của dữ liệu mở

Dữ liệu mở (Open data) là dữ liệu có thể được bất kỳ ai tự do sử dụng, sử dụng lại và phân phối lại, chỉ yêu cầu phải ghi nhận nguồn và chia sẻ tương tự. Dữ liệu mở và cộng tác dữ liệu (data collaboration) cho phép các tổ chức, doanh nghiệp (DN) chia sẻ và truy cập dữ liệu, từ đó giúp họ phát triển các sản phẩm, dịch vụ cũng như tìm ra những giải pháp mang lại lợi ích kinh tế, xã hội hoặc môi trường. Dữ liệu cần được lưu trữ ở các định dạng phổ biến mà những hệ thống khác nhau có thể đọc và hiểu được, thậm chí nếu cần có thể được cấp phép nhằm cho phép mọi người sử dụng lại không hạn chế. 

Một ví dụ điển hình là việc sử dụng dữ liệu tổng hợp từ một nhà mạng di động để tiến hành phân tích sự di chuyển của dân số ở các khu vực đô thị trong giờ cao điểm. Việc biết mọi người đi từ đâu và đến đâu cũng như thời gian cao điểm nhất cho phép quy hoạch các tuyến xe trong thành phố tốt hơn. Nếu các ga tàu điện ngầm nằm gần những nơi mà hầu hết mọi người muốn lên và xuống thì sẽ khuyến khích được nhiều người sử dụng phương tiện công cộng hơn. Tương tự, nếu số lượng xe buýt và tàu điện ngầm cung cấp phù hợp với khối lượng người đi thì vừa đáp ứng được nhu cầu của hành khách vừa đạt được hiệu quả đối với nhà cung cấp dịch vụ.

Không chỉ với các dự án quy mô lớn, việc sử dụng dữ liệu mở trong nội bộ cũng mang lại nhiều lợi ích. Jule Sigall, nhóm Sở hữu trí tuệ tại Bộ phận pháp lý và đối ngoại DN của Microsoft, giải thích: "Điều quan trọng là các tổ chức phải xác định được những triển vọng mới đối với dữ liệu của chính họ. Dữ liệu có thể nằm trong các silo (một tập hợp thông tin trong một tổ chức được cách ly và không thể truy cập bởi các bộ phận khác của tổ chức) trong các DN tư nhân và các cơ quan khu vực công. Mở dữ liệu để mọi người trong các nhóm và các phòng ban khác nhau có thể cộng tác và phát triển các giải pháp nhằm giải phóng giá trị từ dữ liệu".

Tương tự, các chính phủ nên mở dữ liệu của mình thành dữ liệu mở vì đây là nguồn dữ liệu lớn và chất lượng, có nhiều giá trị có thể giúp thúc đẩy sự phát triển của DN và xã hội. Khi dữ liệu này được khai thác, nó sẽ tạo ra nhiều lợi ích cho người dân, chính phủ và chính DN. Nói cho cùng, lúc này DN sẽ trở thành cánh tay nối dài của chính phủ trong việc giúp khai thác dữ liệu để phục vụ nhân dân. Đây là một cách huy động nguồn lực DN một cách thông minh để "xã hội hóa" các dịch vụ từ dữ liệu mà nhà nước chưa thể làm để phục vụ nhân dân và cũng là cách thức để cơ quan nhà nước và người dân, DN chung tay giải quyết các vấn đề, thực thi các chính sách hiệu quả Tại sao dữ liệu mở ngày càng có vai trò quan trọng? Hệ thống học máy và trí tuệ nhân tại (AI) cần dữ liệu để học hỏi. Một lượng lớn dữ liệu kỹ thuật số như hình ảnh y tế được đưa vào một công cụ AI nhằm xác định các dấu hiệu về các vấn đề sức khỏe tiềm ẩn.

CEO Microsoft Satya Nadella từng cho biết trong một tuyên bố: "AI là một trong những công nghệ mang tính chuyển đổi nhất của thời đại chúng ta, và có tiềm năng giúp giải quyết thách thức khó khăn nhất của thế giới". Từ việc giám sát lưu lượng giao thông tại một thành phố đông đúc cho đến các chẩn đoán y tế về sự sống hay cái chết, AI cần một bộ dữ liệu lớn để thiết lập cơ sở về kết quả bình thường, từ đó có thể xác định chính xác các trường hợp cần điều tra thêm.

Càng nhiều dữ liệu được cung cấp thì hệ thống càng trở nên hiệu quả và tin cậy. Ngược lại, nếu không có quyền truy cập và đủ dữ liệu cần thiết, hiệu quả của công cụ AI sẽ thể bị ảnh hưởng. Điều quan trọng là làm cho dữ liệu sẵn sàng và miễn phí cho người khác sử dụng, tức là làm cho dữ liệu mở. Điều này cũng tương tự như việc phát triển mã nguồn mở.

Trong những tháng gần đây, chúng ta đã nhận thấy những lợi ích mà việc chia sẻ dữ liệu tốt hơn có thể mang lại, không chỉ cho các tổ chức, DN mà còn trong cả việc giải quyết những thách thức lớn nhất của thế giới. Từ biến đổi khí hậu đến đại dịch COVID-19, rõ ràng dữ liệu đóng một vai trò quan trọng trong việc giúp chúng ta hiểu rõ những thách thức này và đưa ra cách giải quyết chúng.

 Với hàng nghìn trường hợp mới được ghi nhận trên khắp thế giới mỗi ngày, các nhà nghiên cứu đang bận rộn thu thập một lượng lớn dữ liệu liên quan đến đại dịch. Chia sẻ dữ liệu là điều cần thiết để tăng cường hiểu biết của chúng ta về sinh học và sự lây lan của COVID-19, từ đó giúp các nhà khoa học nhanh chóng nghiên cứu và phát triển vắc-xin phòng ngừa COVID-19.

Câu chuyện về khoảng cách dữ liệu

Để đáp ứng yêu cầu của chuyển đổi số (CĐS) và Cách mạng công nghiệp 4.0 (CMCM 4.0), dữ liệu và AI ngày càng tăng trưởng bùng nổ nhưng hiện chỉ tập trung vào một số ít công ty. Thật vậy, hiện hơn 50% dữ liệu được tạo ra bởi các tương tác trực tuyến (dựa trên phân tích của sameweb.com, appfigures.com và alexa.com) được thu thập bởi chưa đến 100 công ty và khoảng một nửa số người có kỹ năng AI làm việc trong ngành công nghệ. Không có gì ngạc nhiên khi những DN này sau đó có thể thu lợi lớn từ dữ liệu và AI trong khi những DN khác thì không, thậm chí còn bị bất lợi. Khi xã hội càng được kết nối thì khoảng cách dữ liệu (Data divide) giữa các cá nhân, tổ chức càng lớn.

Dữ liệu mở: Giải pháp để xóa bỏ khoảng cách dữ liệu  - Ảnh 2.

Các công ty sở hữu dữ liệu về sở thích, thói quen và ưu tiên của người dùng có thể vượt qua các đối thủ của họ khi đưa ra các quyết định quảng cáo hoặc đầu tư. Các vấn đề xã hội cũng là cơ hội kinh doanh cho những công ty có giải pháp phù hợp, ngay cả khi lợi ích không phải là ngay lập tức. 

Ví dụ, các chuyên gia dự đoán rằng các công ty như Apple và Google có khả năng nhanh chóng thoát ra khỏi cuộc khủng hoảng do COVID-19 hơn so với các công ty khác. 

Các ứng dụng theo dõi liên lạc, cảnh báo vùng lân cận và lập bản đồ virus corona là những công nghệ được xây dựng trên dữ liệu lớn và thường sử dụng thông tin vị trí được thu thập bởi các gã khổng lồ công nghệ, bao gồm Facebook và Google. Hai công ty này theo dõi khá nhiều thông tin của người dùng trực tuyến. Việc sử dụng rộng rãi các công cụ mới này sẽ giúp các công ty công nghệ thu thập được khối lượng lớn dữ liệu vô giá mà họ có thể phân tích và sử dụng khi phát triển những sản phẩm và dịch vụ của riêng mình.

Không chỉ vậy, quyền sở hữu dữ liệu cũng mang lại quyền lực chính trị đáng kể cho các công ty - Facebook là một ví dụ điển hình. Mạng xã hội này thậm chí có thể làm chao đảo quan điểm chính trị dựa trên lượng người dùng mà nó tiếp cận. Nền tảng của Facebook cho phép công ty tùy chỉnh nội dung để phù hợp với sở thích cá nhân, khiến nó trở thành một hệ thống phân phối hoàn hảo cho các quảng cáo chính trị nhắm mục tiêu. Khoảng cách dữ liệu đang đặt ra một thách thức mới đối với xã hội và nếu không được giải quyết có thể dẫn đến sức mạnh kinh tế khổng lồ chỉ tập trung vào một vài quốc gia và công ty.

Ví dụ, dựa trên các xu hướng hiện tại, PwC (PricewaterhouseCoopers) dự đoán rằng khoảng 70% giá trị kinh tế do AI tạo ra sẽ chỉ tập trung vào hai quốc gia: Mỹ và Trung Quốc. Rõ rằng khoảng cách dữ liệu ngày càng tăng là không thể tránh khỏi. Tuy nhiên, bằng cách mở và chia sẻ dữ liệu nhiều hơn nữa, các tổ chức có thể mở khóa giá trị tiềm năng, chia sẻ kiến thức và khiến dữ liệu trở nên hữu ích hơn cho tất cả mọi người, cho phép mọi người được hưởng lợi theo những cách họ không thể có nếu sử dụng nó một mình. Hãy cùng nhau nhanh chóng hành động ngay từ bây giờ sẽ giúp các tổ chức xã hội dân sự, chính phủ và DN thuộc mọi quy mô sẽ được hưởng đầy đủ các giá trị từ dữ liệu.

Dữ liệu mở: Giải pháp để chia sẻ dữ liệu dễ dàng và an toàn hơn

Tình trạng trên dẫn đến khoảng cách dữ liệu vốn đã sâu rộng ngày càng lớn hơn. Mới đây, Microsoft, tập đoàn công nghệ giá trị nhất thế giới (tính theo vốn hóa thị trường), đã khởi động "Chiến dịch dữ liệu mở" để giải quyết vấn đề bất bình đẳng về dữ liệu giữa các công ty cũng như các khu vực. Trong số rất nhiều hạng mục, từ nay cho đến năm 2022, hãng dự kiến sẽ khởi động khoảng 20 chương trình chia sẻ dữ liệu số, bao gồm cả các bộ dữ liệu của dự án trên GitHub và những thông tin đang thu thập được từ dự án nghiên cứu COVID-19. 

Chiến dịch nhằm thúc đẩy việc chia sẻ dữ liệu quy mô lớn một cách công khai và an toàn, đặc biệt là thông tin có thể giải quyết những thách thức lớn nhất mà xã hội phải đối mặt, như chăm sóc sức khỏe, tính bền vững và các vấn đề kinh tế - xã hội đô thị. Microsoft không phải là tập đoàn duy nhất muốn làm vậy. Google hiện đang chia sẻ công việc của mình trên các kho lưu trữ mở, bao gồm cả arXiv.org.

"Thế giới từng trải qua nhiều đợt đại dịch, nhưng lần này chúng ta đã tìm thấy một siêu sức mạnh mới; Đó chính là khả năng thu thập và chia sẻ dữ liệu cho mục đích tốt đẹp", Chủ tịch của Facebook, Mark Zuckerberg đã viết như vậy trên tờ Washington Post. Bên kia Đại Tây Dương, bất chấp những quy định nghiêm ngặt liên quan đến vấn đề bảo mật và quyền riêng tư của người dùng, một số lãnh đạo Liên minh châu Âu (EU) cũng tin tưởng: sự chia sẻ dữ liệu sẽ giúp thúc đẩy những nỗ lực chống virus corona.

Chiến dịch của Microsoft được kỳ vọng là sẽ tạo ra hiệu ứng lớn. Việc chia sẻ dữ liệu rộng rãi hơn sẽ có tác dụng ngăn ngừa xu hướng tập trung quyền lực kinh tế và chính trị, góp phần xoá bỏ "khoảng cách dữ liệu". Không dễ để trào lưu dữ liệu mở phát triển lớn mạnh trên quy mô toàn cầu, bởi dữ liệu phức tạp hơn nhiều so với các đoạn mã (code). Hầu hết lập trình viên đều hiểu chung một thứ ngôn ngữ (lập trình), và những tập thể nguồn mở thường hướng tới giải quyết các vấn đề thuần túy mang tính kỹ thuật, trong khi những người phụ trách dữ liệu lại tới từ nhiều ngành nghề, lĩnh vực khác nhau, cho nên chắc chắn sẽ tồn tại nhiều khác biệt và bất đồng. 

 Một thách thức khác mà Microsoft nhận thấy khi chia sẻ và phân tích dữ liệu trong cuộc chiến ngăn chặn khủng hoảng COVID-19 là dữ liệu thu thập không nhất quán. Hiện tại, dữ liệu được thu thập ở nhiều định dạng và loại tài liệu khác nhau - một số trong tài liệu Word, một số ở tệp PDF, một số trong bảng tính, một số trên giấy. Điều này khiến cho khó có thể chia sẻ và tổng hợp tất cả dữ liệu hiệu quả và giá trị, tạo ra một rào cản lớn cho sự cộng tác. 

Theo Microsoft, còn rất nhiều khó khăn cần phải vượt qua để hiện thực hóa viễn cảnh trên. Ngay cả khi các rào cản kỹ thuật và pháp lý đối với hoạt động chia sẻ dữ liệu được gỡ bỏ, nhiều công ty đang nắm trong tay nguồn tài nguyên dữ liệu khổng lồ chắc chắn cũng sẽ rất miễn cưỡng từ bỏ độc quyền sinh lợi từ dữ liệu người dùng.

Xóabỏkhoảngcáchdữliệumộttháchthứclớn.Nhưnglợiíchmanglạichocáctổchứcthuộcmọiquycộngđồnglớnhơnrấtnhiềunếuchúngtathểcùngnhauhợptácđểđạtđượctiếnbộvềdữliệumở.

Trong tương lai, dữ liệu sẽ đóng một vai trò quan trọng trong việc hình thành xã hội. Từ ngăn chặn biến đổi khí hậu và chữa bệnh đến phòng chống tội phạm và giải quyết các vấn đề kinh tế - xã hội, các công cụ AI dựa trên dữ liệu sẽ là chìa khóa để vượt qua những thách thức toàn cầu này. Cho đến lúc đó, nếu dữ liệu vẫn tập trung trong tay một số ít đối tượng, thế giới khó có thể giải quyết được những vấn đề này và sự chênh lệch kinh tế sẽ tiếp tục trở nên tồi tệ hơn trong thế giới hậu COVID-19.


Tài liệu tham khảo:

https://theconversation.com/the-future-will-be-built-on-open-data-heres-why-52785https://screenrant.com/closing-data-divide-inequality-importance-microsoft/https://blogs.icrc.org/law-and-policy/2017/11/02/the-data-divide-overcoming-an-increasing-practitioner-academic-gap/www.microsoft.com.


(Bài đăng  ấn phẩm in Tạp chí TT&TT Số 2 tháng 2/2021)

Bùi Huyền