Phát triển cơ sở dữ liệu quốc gia như một dịch vụ

Trong những năm gần đây, sự phát triển nhanh của công nghệ kỹ thuật số đã giúp thu thập và lưu trữ lượng dữ liệu khổng lồ trong các hồ dữ liệu lớn. Việc khai thác dữ liệu đã trở thành nhu cầu thiết yếu và một thành phần quan trọng trong nền kinh tế hiện đại.

Diễn đàn

Lâm Việt Tùng - Chuyên gia tư vấn CNTT-Viễn Thông cho Vodafone Ziggo (Hà Lan)
09:23 AM 01/11/2021
In bài viết này

Chia sẻ bài viết này

Tháng 9/2019, Ủy ban châu Âu (EC) đã công khai một báo cáo nghiên cứu về xây dựng nền kinh tế dữ liệu trong đó có đánh giá hiện trạng nền kinh tế dữ liệu của châu Âu, đưa ra nhận định dự báo sự phát triển và đề ra một số định hướng trong các năm tiếp theo. Báo cáo chỉ ra nguồn dữ liệu quan trọng bao gồm các dữ liệu từ nhà nước, doanh nghiệp (DN) và nghiên cứu khoa học, có giá trị khoảng 1.054 tỷ euro đến năm 2025. Trước đó, năm 2016, Liên minh châu Âu (EU) đã ban hành “Quy định chung về bảo vệ dữ liệu” (General Data Protection Regulation - GDPR), trong đó quy định rõ ràng những dữ liệu nào được phép thu thập từ cá nhân và DN, DN được lưu trữ dữ liệu cá nhân trong thời gian bao lâu... 

Ở Hà Lan, các công ty lớn đều có bộ phận kiểm tra dữ liệu khách hàng có được bảo vệ theo đúng quy định hay không. Bản thân tác giả khi thiết kế bất cứ ứng dụng nào liên quan đến dữ liệu khách hàng đều phải trình bày cho nhóm bảo mật dữ liệu và chỉ khi giải pháp được chấp nhận an toàn thì mới được phát triển. 

Phát triển cơ sở dữ liệu quốc gia như một dịch vụ - Ảnh 1.

General Data Protection Regulation (Ảnh: Internet)

Năm 2015, Thủ tướng Chính phủ đã ban hành Danh mục cơ sở dữ liệu (CSDL) quốc gia cần ưu tiên triển khai tạo nền tảng phát triển Chính phủ điện tử (Quyết định số 714/ QĐ-TTg ngày 22/5/2015), trong đó tập trung ưu tiên cho 6 CSDL quốc gia là Dân cư, DN, Đất đai, Tài chính, Bảo hiểm và Thống kê, tổng hợp dân số. Chiến lược xây dựng CSDL quốc gia của Việt Nam đã bắt kịp với xu hướng phát triển của thế giới.

Gần 7 năm trôi qua, với rất nhiều cố gắng của các bộ, ngành trong việc thiết lập CSDL Quốc gia nhưng kết quả đạt được còn khiêm tốn. Mới chỉ có CSDL Quốc gia về Dân số, Bảo hiểm và DN đã hình thành, những CSDL khác còn đang được xây dựng hoặc mới chỉ đạt được một số kết quả cơ bản. Tuy nhiên các CSDL vẫn chưa thể sử dụng được một cách đầy đủ. Điều này có thể nhận thấy phần nào qua việc đợt dịch COVID-19 như: người dân vẫn phải khai nhiều giấy tờ khi đăng ký xét nghiệm, tiêm vaccine ... Các ứng dụng (app) đăng ký y tế ra đời nhiều nhưng chưa ứng dụng nào có thông tin dân cư chính xác và ai muốn khai hộ người khác, và khai nhiều nơi cũng được, do đó khó nắm bắt được thực sự ai cần hỗ trợ, nhiều người vô cùng khó khăn thì chưa nhận được hỗ trợ, hoàn toàn phụ thuộc vào nhiệt tình và trung thực của các cán bộ cơ sở.

Theo Cổng dữ liệu quốc gia (https://data.gov.vn), chỉ có CSDL quốc gia về đăng ký DN đã hoàn thành nhưng chưa kết nối hết với các ban ngành khác. 

Phát triển cơ sở dữ liệu quốc gia như một dịch vụ - Ảnh 2.

Hiện trạng CSDL quốc gia

Các CSDL quốc gia quan trọng sẽ được phân tích kỹ hơn trong phần dưới đây, đặc biệt là CSDL về Dân cư và CSDL về Đất đai vì liên quan và tác động đến tất cả mọi người dân.

CSDL quốc gia về Dân cư

CSDL quốc gia về Dân cư là thông tin gốc về người dân phục vụ quản lý hành chính và cư trú, hộ tịch và sử dụng chung giữa các CQNN; đơn giản hóa thủ tục hành chính (TTHC), giấy tờ liên quan đến người dân. 

Phát triển cơ sở dữ liệu quốc gia như một dịch vụ - Ảnh 3.

Mẫu thẻ CCCD – Nguồn Internet

 Bộ Công an đã xây dựng CSDL quốc gia về Dân cư và thu nhận hơn 50 triệu hồ sơ làm căn cước công dân (CCCD), tức là mới chỉ có 50% dữ liệu của gần 100 triệu dân. Có rất nhiều câu hỏi cho vấn đề an toàn thông tin lưu trong chip điện tử như ai sản xuất, mã hóa thông tin theo chuẩn nào, ai cấp giấy chứng nhận bảo mật, giao thức, giao diện đọc và dữ liệu ra như thế nào... nhưng hiện chưa có câu trả lời như các nước châu Âu.

Các cơ quan truyền thông đều tuyên truyền là an toàn, tuy nhiên tác giả vẫn thấy lo, và lo nhất đó là hai cái dấu vân tay ngón trỏ được in to trên thẻ CCCD, như vậy người xấu có thể dùng vân tay đó để mở khóa điện thoại thông minh hay gây án hình sự và tạo hiện trường giả khi ai đó để quên CCCD hay bị mất cắp. Chuyện lưu vân tay trên chip điện tử rất dễ dàng nhưng ở EU đã không khuyến khích vì sợ nếu ai đó mở được thông tin trên chip. Tuy vậy, Hungary và Ba Lan vẫn không làm theo quy định chung của EU. Thông tin hộ tịch như trẻ sinh ra, người mất đi... thì nằm bên Bộ Tư pháp. Có nghĩa là thông tin không được cập nhật trong thời gian thực dễ bị kẻ xấu lợi dụng như dùng CCCD của người đã chết... CSDL quốc gia về Dân cư là nền tảng của hệ thống định danh người dùng và DN cho nên cần tập trung cả hai CSDL của Bộ Công an và Bộ Tư pháp. Ngoài ra, dữ liệu dân cư cần được khai thác như một dịch vụ để đảm bảo vận hành hệ thống CNTT và cập nhật dữ liệu. Ví dụ, dịch vụ giấy khai sinh, tình trạng hôn nhân...

CSDL quốc gia về Đất đai

CSDL quốc gia về đất đai rất cần thiết cho nhiều bộ ngành nhưng mới chỉ có trên văn bản của Bộ Tài nguyên và Môi trường (TN&MT), theo như “Quy định về quy trình xây dựng CSDL đất đai”, một phần CSDL do cơ quan Trung ương tổ chức xây dựng gồm: CSDL thống kê, kiểm kê đất đai, quy hoạch, kế hoạch sử dụng đất, và giá đất. Phần dữ liệu khác do tỉnh, thành phố trực thuộc Trung ương tổ chức xây dựng gồm: CSDL địa chính: dữ liệu về lập, chỉnh lý bản đồ địa chính, đăng ký đất đai, cấp giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất, hồ sơ địa chính; CSDL thống kê, kiểm kê đất đai, CSDL quy hoạch, kế hoạch sử dụng đất: dữ liệu báo cáo thuyết minh tổng hợp, bản đồ hiện trạng sử dụng đất, bản đồ quy hoạch, kế hoạch sử dụng đất, bản đồ điều chỉnh quy hoạch, kế hoạch sử dụng đất của cấp tỉnh, cấp huyện; CSDL giá đất: dữ liệu bảng giá đất, bảng giá đất điều chỉnh, bổ sung; hệ số điều chỉnh giá đất; giá đất cụ thể; giá trúng đấu giá quyền sử dụng đất; thông tin giá đất trong phiếu thu thập thông tin về thửa đất.

Phát triển cơ sở dữ liệu quốc gia như một dịch vụ - Ảnh 4.

Ảnh minh hoạ

Nói một cách tóm tắt, xây dựng bản đồ địa chính số và các lớp dữ liệu liên quan đến đất đai và quyền sử dụng đất nhưng vẫn còn chưa nói rõ một số quy định kỹ thuật cụ thể như bản đồ tỷ lệ bao nhiêu, định dạng của bản đồ số là gì cho cả nước (ví dụ: Shape files của ERSI hay GeoJSON), CSDL GIS nào để lưu trữ các bản đồ số thu thập từ các tỉnh thành (ví dụ: PostgreSQL hay Oracle Spatial...) và sử dụng hệ thống thông tin địa lý (GIS) nào để đọc, chỉnh sửa và hiển thị bản số và các thuộc tính...; không có mô hình dữ liệu chi tiết với các bảng dữ liệu và thuộc tính. Ví dụ, Hungary quy định tỷ lệ bản đồ địa chính trong khu dân cư tối thiểu là 1:500 và ngoài khu vực dân cư là 1:2000, các lớp bản đồ, bảng dữ liệu và thuộc tính.

Tên là CSDL quốc gia về Đất đai nên được giao cho Tổng cục quản lý đất đai làm nhưng thực chất công việc 80% là của lĩnh vực làm bản đồ trong đó Cục Đo đạc bản đồ của Bộ TN&MT và Bộ Quốc phòng đóng vai trò quan trọng nhất. Tuy nhiên, hiện dữ liệu vẫn cát cứ và chưa thể chia sẻ, để có một bản đồ số chất lượng, người dân và DN vẫn dùng bản đồ Google Maps. Bản đồ của Bộ Quốc phòng thường làm với tỷ lệ nhỏ với 1:25 000 trở lên mà theo các chuyên gia có thể mua với độ chính xác khá cao và rẻ. Theođó, cần sự hợp tác với Cục Đo đạc bản đồ của Bộ TN&MT để hoàn thành CSDL quốc gia về Đất đai và biến CSDL quốc gia về Đất đai thành một dịch vụ trong tương lai và đảm bảo thu nhập để cập nhật dữ liệu. Từ những năm 1990, Hungary đã làm bản đồ số tỷ lệ 1:10 000 với nhiều lớp thông tin và bán các dịch vụ bản đồ số theo yêu cầu của DN từ đó đến nay.

Ngoài ra cần kết hợp bản đồ địa hình, bản đồ địa chính, bản đồ chuyên ngành như nước, viễn thông, điện, nước thải, giao thông, khu công nghiệp... thành bản đồ số thống nhất toàn quốc. Quy định về bảo mật hiện hành cũng cần xem xét bởi vì lý do an ninh, không chia sẻ dữ liệu trong khi Google Maps biết chính xác hơn cái dữ liệu gọi là mật. Ví dụ không được bán dữ liệu với diện tích lớn hơn 400km2, vấn đề bán lớp thông tin nào, tỷ lệ như thế nào và cho ai. Ví dụ, Bộ Nông nghiệp và Phát triển nông thôn cần diện tích cả nước để phát triển hệ thống thông tin cho nông dân về bản đồ hiện trạng và kế hoạch sử dụng đất nông nghiệp/cơ cấu cây trồng, bản đồ thổ nhưỡng - chất lượng đất từng địa phương, bản đồ thuỷ lợi và nguồn nước, bản đồ giải thửa, CSDL về giống cây trồng... Theo đó, cần có các quy trình cụ thể rõ ràng để cập nhật dữ liệu, kiểm tra chất lượng bản đồ và phạt hành chính với các cơ quan chức năng.

CSDL quốc gia về DN

Bộ Kế hoạch và Đầu tư đã xây dựng khá thành công CSDL quốc gia về đăng ký DN, hệ thống thông tin quốc gia đăng ký DN và chính thức đưa vào vận hành trên toàn quốc từ năm 2010. Bộ Kế hoạch và Đầu tư đã có cổng đăng ký thông tin cho DN và đã thu thập lượng thông tin khá lớn nhưng chưa kết nối với các hệ thống khác để kiểm tra thông tin khai báo dẫn đến chuyện việc đăng ký có thể thành quảng cáo miễn phí cho một số người. Ví dụ như đăng ký DN có vốn tới 500.000 tỷ đồng, việc đăng ký sai cùng lắm là bị phạt 20 triệu đồng như quảng cáo rẻ tiền. Thông tin trên cổng cũng chưa được cập nhật thường xuyên và nhiều trang không có thông tin. CSDL quốc gia này nên được khai thác như một dịch vụ như khi những DN cần các thông tin xác thực đối tác của mình là ai, số đăng ký, tên chủ DN, nhiệm vụ chức năng...

CSDL quốc gia về Tài chính

CSDL quốc gia về Tài chính do Bộ Tài chính gồm có: Tổng hợp về tài chính và các CSDL quản lý chuyên ngành: thuế, kho bạc, hải quan, chứng khoán, dự trữ nhà nước, giá, bảo hiểm, nợ công, tài sản công, quản lý, giám sát vốn nhà nước tại DN, thu, chi ngân sách nhà nước, danh mục điện tử dùng chung ngành Tài chính...

Bộ Tài chính đã xây dựng được kiến trúc tổng thể cho giai đoạn 1 từ năm 2019–2022 và giai đoạn 2 từ năm 2023 - 2025, như lập nên kho dữ liệu (data warehouse) để chứa tất cả dữ liệu nguồn rồi phát triển các tệp dữ liệu đặc trưng (Data Mart) cho các ngành như thuế, kho bạc, hải quan, chứng khoán... trên kho dữ liệu để phục vụ cho làm báo cáo hay tìm kiếm thông tin nhanh chóng. Kết quả đã phát triển tới đâu thì rất ít thông tin. Khi tìm những dữ liệu công khai trên Cổng dữ liệu quốc gia thì gần như rất khiêm tốn với những tiêu mục nhưng không có dữ liệu.

Cổng dữ liệu quốc gia

Cổng dữ liệu quốc gia có rất nhiều thông tin về CSDL Quốc gia ở mức độ khái quát nhưng vẫn thiếu chi tiết cụ thể. Các dịch vụ về dữ liệu mới chỉ có tiêu mục, nhiều nơi không có dữ liệu, hoặc nếu có dữ liệu thì thường là định dạng Excel như vậy có thể gây khó cho người dùng bình thường khi muốn khai thác dữ liệu. Một số thông tin thì dẫn sang cổng “Danh mục điện tử dùng chung của các CQNN” và ở đây có thể thấy những API - các giao diện ứng dụng rất mở cho các CQNN đến mức độ không cần mã hóa thông tin dưới giao thức HTTP mà lẽ ra phải là HTTPS.

Một số kiến nghị

Chúng ta có thể thấy CSDL Quốc gia và ứng dụng phân tán, tốn kém tài nguyên và công sức tích hợp, bảo mật khó và cần sao lưu dữ liệu thường xuyên ở nhiều chỗ, có thể mất dữ liệu quốc gia khi có hỏa hoạn, lũ lụt hay chiến tranh xảy ra. Cho nên tất cả CSDL Quốc gia và ứng dụng liên quan nên tập hợp vào một Trung tâm dữ liệu (có trung tâm dự phòng), lưu trữ trên hồ dữ liệu, phân quyền truy cập theo nhiệm vụ chức năng trên nền tảng dữ liệu lớn như Hadoop và public/private cloud, sao lưu một chỗ, đảm bảo có thể thu thập dữ liệu từ nhiều định dạng khác nhau, có cấu trúc và phi cấu trúc; lưu trữ trên

nhiều CSDL khác nhau tùy theo mục đích; có thể phân tích và xử lý dựa trên trí tuệ nhân tạo hay học máy (AI/ ML); có thể dùng các ứng dụng mở để tìm kiếm nhanh thông tin cần thiết, hay thiết kế báo cáo, và tạo nên dịch vụ dữ liệu cho người dùng trên Cổng dữ liệu quốc gia.

Cổng dữ liệu quốc gia khi đưa dữ liệu lên cần đặt câu hỏi ai là người dùng, tại sao họ cần dịch vụ đó. Có lẽ cần có kiến trúc tổng thể cho CSDL Quốc gia.

Quy định GDPR của EU rất cần được tham khảo, theo đó, nên có những quy định cụ thể dữ liệu nào cần thu thập, lưu trữ, thời hạn lưu trữ và được phép chia sẻ theo kiểu dịch vụ để giải quyết tận gốc việc cát cứ dữ liệu và đảm bảo nguồn kinh phí cho các cơ quan thu thập và cập nhật dữ liệu. Ví dụ, việc lưu trữ thông tin liên quan đến dịch COVID cần lưu trữ trong thời gian bao lâu...

CSDL Quốc gia là tài sản quốc gia vô giá, không chỉ làm một lần là xong, mà luôn phải được cập nhật qua những ứng dụng hay thiết bị tạo ra nó, và cần có quy trình bảo vệ nghiêm túc theo đúng pháp luật.

Nên phát triển CSDL Quốc gia như một dịch vụ để có thể tự chủ kinh phí không cần ngân sách nhà nước, cần thu phí dịch vụ đúng quy trình.

(Bài viết đăng ấn phẩm in Tạp  chí TT&TT  Số 10 - Tháng 10/2021)