Những thách thức đặt ra bởi dữ liệu mở

Hợp Trương, Trương Ngọc Huyền| 22/06/2019 11:45
Theo dõi ICTVietnam trên

Trong bài viết này, các chuyên gia đã phác thảo một số thách thức đặt ra bởi dữ liệu mở được công bố chính thức và khám phá cách tiếp cận thực tế của công ty công nghệ Doorda có trụ sở tại London.

Hình ảnh có liên quanCác chuyên gia tin rằng hiện tại, các tổ chức tư nhân và công cộng cần tận dụng làn sóng của dữ liệu mở để cung cấp các sản phẩm và dịch vụ được cải thiện. Hơn nữa, các tổ chức cần truy cập vào toàn bộ làn sóng, không chỉ là một phần của nó. Cuối cùng, họ cần kết hợp tất cả vào dữ liệu hiện tại của họ.

Định nghĩa dữ liệu mở (Open data)

Dữ liệu được coi là mở nếu có ai đó tự do sử dụng, tái sử dụng và phân phối lại nó. Hầu hết các chính phủ tại các quốc gia đang đẩy mạnh việc xuất bản dữ liệu mở, được thực hiện bởi các tổ chức chính thức, trên toàn quốc và khu vực.

Dữ liệu mở thường là thông tin và thống kê về dân số, khu vực người dân sinh sống, các tổ chức, doanh nghiệp mà họ làm việc, và những thứ ảnh hưởng đến cuộc sống của họ - giao thông, tội phạm, y tế, thương mại, chi tiêu khu vực công, giáo dục, xe cộ, thời tiết v.v... Danh sách này phát triển hàng ngày.

Mặc dù dữ liệu mở là phi cá nhân, hoàn toàn tránh được những lo ngại về quyền riêng tư như Quy định bảo vệ dữ liệu chung (GDPR), dữ liệu đó có những thách thức đáng kể.

Thử thách của dữ liệu mở

Thật không may, các tổ chức hiếm khi sử dụng sự giàu có của loại dữ liệu này vì nó được xuất bản theo những cách khó hiểu, không nhất quán và thường không thể dễ dàng liên kết với nhau.

Dữ liệu được cung cấp ở nhiều nơi và ở các định dạng khác nhau (trang web quốc gia, cơ sở dữ liệu khu vực, tài liệu phi cấu trúc, thông điệp bán cấu trúc và hồ sơ có cấu trúc) và có thể truy cập theo nhiều cách khác nhau (trên trang web, tập tin hoặc lập trình).

Đôi khi, dữ liệu được xuất bản tự động đến một vị trí trên internet; đôi khi nó được làm sẵn theo yêu cầu; đôi khi nó lại được gửi qua email. Tần suất xuất bản thay đổi tùy theo nguồn dữ liệu, và có thể là bất kỳ sự kết hợp nào giữa các năm, hàng năm, hàng quý, hàng tháng và hàng ngày. Việc xuất bản cũng có thể không thường xuyên, tùy thuộc vào yếu tố con người hoặc sự kiện.

Vì có hàng ngàn các tổ chức khác nhau tham gia vào việc thu thập dữ liệu, và hầu hết dữ liệu được nhập thủ công, nên chất lượng và tính nhất quán của dữ liệu này rất kém. Acme Widgets Limited ở một thị trấn có thể bị nhập thành Acme Widgets tại một thị trấn khác. Hơn nữa, việc không thể xác định một cách đáng tin cậy và nhất quán một tài sản, khu vực hoặc công ty bởi một định danh chính thức duy nhất là vấn đề khi cố gắng liên kết hoặc nối dữ liệu mở với dữ liệu nội bộ hiện có.

Mặc dù dữ liệu mở hầu như luôn cung cấp chế độ xem mới nhất hoặc hiện tại, nhiều nhà xuất bản không cung cấp chế độ xem lịch sử. Ví dụ, không thể xem dữ liệu như vào thời điểm một quyết định được đưa ra hoặc để xem các thay đổi trải qua thời gian. Việc thực hiện các quy trình tự động để cung cấp lịch sử thường rất phức tạp và tốn kém.

Việc xuất bản dữ liệu mở của các tổ chức khu vực công không phải là trọng tâm chính của họ, vì vậy các giải pháp xuất bản dữ liệu thường rất mong manh. Bất chấp những nỗ lực của các đội tham gia, việc mất dữ liệu trên mạng là cực kỳ phổ biến.

Những người muốn truy cập và sử dụng dữ liệu thường không có đủ công cụ và chuyên môn kỹ thuật cần thiết.

Sử dụng dữ liệu

Tuy nhiên, có những phần thưởng cho những người có thể vượt qua được những thách thức trên.

Các nhà khoa học dữ liệu rất muốn thêm dữ liệu mới vào các mô hình dự đoán rủi ro của họ. Các tổ chức muốn cung cấp một giao diện web không ma sát, tự động điền thông tin chính xác để giảm lỗi và tăng tốc đăng ký cho khách hàng. Ví dụ, một số trang web sử dụng số đăng ký xe để tự động điền và tạo mẫu. Nhiều tổ chức muốn phân tích xu hướng chi tiêu khu vực công. Các nhà tiếp thị đang làm phong phú thêm thông tin nội bộ với dữ liệu mới, cải thiện tỷ lệ thành công tiềm năng của họ.

Các ví dụ khác:

Thu hút khách hàng

Phân khúc khách hàng để xác định tốt hơn thị trường mục tiêu, cải thiện các mô hình phản ứng tiếp thị, tinh chỉnh các đánh giá rủi ro và cung cấp các dịch vụ một cách nhanh chóng và chính xác.

Quản lý khách hàng

Các mô hình khách hàng hoàn thiện hơn tối đa hóa doanh thu tiềm năng, đánh giá các sự kiện rủi ro và tối ưu hóa thu hồi công nợ.

Kế hoạch kinh doanh

Dữ liệu rộng hơn, đầy đủ hơn giúp cải thiện quy hoạch vị trí, đánh giá nhà cung cấp và trí thông minh cạnh tranh.

Tài chính thương mại

Chủ động tìm kiếm nhu cầu tài trợ tiềm năng và cải thiện phản ứng tiếp thị, phân tích rủi ro khách hàng.

Tài sản thương mại

Cải thiện quy hoạch vị trí, xếp hạng tỷ lệ và phân tích đầu tư.

Mua bán sát nhập/Thị trường vốn

Sử dụng một bản tóm tắt về mặt bằng giao dịch, tài sản, các bên kiểm soát, hợp đồng và biên lai của khu vực công để thông báo kết luận và quyết định.

Cách tiếp cận tốt nhất

Các chuyên gia đã làm việc với dữ liệu mở trong nhiều năm nay, nghiên cứu, thu thập, hợp nhất và liên kết hàng ngàn bộ dữ liệu Nguồn mở từ các nguồn chính thức như HMRC, Ordnance Survey, Các cơ quan đăng ký đất đai, chính quyền địa phương. Các chuyên gia tin rằng việc tận dụng giá trị của làn sóng dữ liệu này có ba chủ đề chính:

Dữ liệu sẵn sàng cho doanh nghiệp

Dữ liệu phải được thực hiện trên thị trường, sẵn sàng cho các chuyên gia, cho phép các chuyên gia tập trung ngay vào phân tích và hiểu biết sâu sắc, đồng thời tránh sự chậm trễ lặp lại, chi phí và rủi ro trong việc tìm kiếm và chuẩn bị dữ liệu. Trong thực tế, bằng cách hài hòa dữ liệu từ nhiều nguồn, có thể giải quyết nhiều mâu thuẫn và giảm thiểu lỗi, cung cấp chất lượng dữ liệu tốt hơn so với bất kỳ nguồn nào.

Phải có các quy trình để xác định và lưu trữ các thay đổi trong dữ liệu nguồn, xây dựng một dấu vết lịch sử cập nhật. Các dữ liệu chi tiết vẫn chưa được xử lý vẫn phải có sẵn, cho phép các nhà phân tích và nhà khoa học dữ liệu tạo ra cái nhìn sâu sắc và lợi thế cạnh tranh độc đáo của riêng họ.

Dữ liệu đã tham gia

Các dữ liệu phải liên tục và đáng tin cậy, kết hợp với dữ liệu mở từ tất cả các nguồn, kết hợp với dữ liệu của bên thứ ba khác và với dữ liệu nội bộ do tổ chức nắm giữ. Trong quá trình hài hòa hóa, một số yếu tố dữ liệu quan trọng cần phải được xác định, làm sạch và chuẩn hóa để cho phép tham gia - địa chỉ bưu chính, mã bưu điện và tên công ty.

Không giống như các giải pháp khớp dữ liệu cũ, dịch vụ đối sánh dữ liệu mới này phải được tự động hóa, không yêu cầu bất kỳ sự can thiệp nào của con người và tránh các lỗi giả mạo. Dịch vụ đối sánh dữ liệu phải có sẵn để xóa và khớp với các nguồn dữ liệu khác khi được yêu cầu.

Nền tảng đám mây tự phục vụ

Dữ liệu phải có sẵn trên nền tảng đám mây tự phục vụ, với các nguồn cấp dữ liệu tự động, giữ cho dữ liệu luôn mới và xây dựng một lộ trình kiểm toán lịch sử. Tuy nhiên, việc truy cập dữ liệu vẫn cần phải đơn giản, truy cập hàng loạt (được trích xuất hoặc truy vấn) hoặc bằng giao dịch riêng lẻ thông qua các giao diện lập trình (SQL và API).

Phần kết luận

Vượt qua những thách thức để tận dụng giá trị của Dữ liệu mở sẽ tránh được những lo ngại về quyền riêng tư như GDPR. Tuy nhiên, giá trị của dữ liệu mở cho các tổ chức không nằm ở các tệp bị cô lập, đó là sự hợp nhất tất cả dữ liệu có liên quan vào một nền tảng duy nhất và cung cấp sự truy cập dễ dàng.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
  • Những người làm báo từ rừng về phố
    Ngày 30/4/1975, trong những cánh Giải phóng quân từ khắp nẻo tiến về Sài Gòn, có cả một đội quân nhà báo xuất phát từ các chiến khu hoặc hành quân theo các binh chủng, đã kịp thời có mặt, chứng kiến giây phút trọng đại: Giải phóng hoàn toàn miền nam, thống nhất đất nước.
  • Háo hức khám phá di tích lịch sử theo một cách mới
    Ứng dụng công nghệ số giúp nhiều du khách gia tăng trải nghiệm thú vị khi tới thăm các di tích lịch sử như Địa đạo Củ Chi, Dinh Độc Lập…
  • Công nghệ đang thay đổi du lịch Việt Nam như thế nào?
    Trong những năm gần đây, sự giao thoa giữa du lịch và công nghệ, thường được gọi là công nghệ du lịch, đã khơi dậy sự đổi mới, với nhiều công ty khởi nghiệp (startup) về công nghệ du lịch đi đầu trong cuộc cách mạng này.
  • Mỹ phạt nhà mạng vì chia sẻ vị trí của người dùng
    Chính phủ Mỹ đã đưa ra mức phạt hàng triệu USD đối với các nhà mạng AT&T, Sprint, T-Mobile và Verizon sau một cuộc điều tra cho thấy các nhà mạng lớn của nước này đã chia sẻ bất hợp pháp dữ liệu cá nhân của thuê bao mà không có sự đồng ý của họ.
  • Các công cụ bảo mật đám mây dựa trên AI
    Ngày nay, AI tiên tiến đang được đưa vào sử dụng ở mọi loại hình doanh nghiệp (AI). Một loạt các nhà cung cấp bảo mật bên thứ ba đã phát hành các công cụ bảo mật đám mây dưới sự hỗ trợ của AI. Dường như đây là một trong những xu hướng nóng nhất trong ngành.
  • Oracle đầu tư mạnh vào AI tạo sinh, đáp ứng xu hướng "chủ quyền dữ liệu"
    Nhà cung cấp dịch vụ cơ sở hạ tầng đám mây của Hoa Kỳ Oracle đang tăng cường các tính năng trí tuệ nhân tạo (AI) tạo sinh của mình khi cạnh tranh trên thị trường điện toán đám mây (ĐTĐM) ngày càng khốc liệt và ngày càng có nhiều công ty nhảy vào lĩnh vực AI.
  • Mỹ lập hội đồng khuyến nghị ứng dụng AI an toàn cho hạ tầng trọng yếu
    Chính phủ Mỹ đã yêu cầu các công ty trí tuệ nhân tạo (AI) đưa ra khuyến nghị cách sử dụng công nghệ AI để bảo vệ các hãng hàng không, dịch vụ công cộng và cơ sở hạ tầng trọng yếu khác, đặc biệt là chống các cuộc tấn công sử dụng AI.
  • Làm gì để phát triển tài năng chuyển đổi?
    Partha Srinivasa, Giám đốc CNTT (CIO) của nhà cung cấp bảo hiểm tài sản và tai nạn Erie có trụ sở tại Pennsylvania, Mỹ đã chia sẻ về cách tiếp cận của ông trong việc xây dựng đội ngũ nhân viên có tinh thần chuyển đổi.
  • Báo chí ở mặt trận Điện Biên Phủ
    Chiến dịch Điện Biên Phủ là cuộc “hội quân” của cả nước. Trong cuộc “hội quân” lịch sử đó có sự tham gia và đóng góp không nhỏ của “đội quân báo chí”.
  • Những ấn phẩm đặc biệt kỷ niệm 70 năm chiến thắng Điện Biên Phủ
    Bộ ấn phẩm kỉ niệm 70 năm chiến thắng Điện Biên Phủ do Nhà xuất bản (NXB) Kim Đồng ấn hành, góp phần nhắc nhớ thế hệ trẻ về một thời hoa lửa, tự hào về khí phách Việt Nam, biết ơn các thế hệ cha anh đi trước, và trân trọng nền hòa bình mà chúng ta đang sống hôm nay.
Những thách thức đặt ra bởi dữ liệu mở
POWERED BY ONECMS - A PRODUCT OF NEKO