Vai trò của dữ liệu gốc trong xây dựng và khai thác DỮ LIỆU QUỐC GIA

03/11/2015 21:39
Theo dõi ICTVietnam trên

Cùng với quá trình phát triển ứng dụng CNTT, trong các cơ quan nhà nước đang cùng tồn tại nhiều tập dữ liệu về người dân, tập dữ liệu về doanh nghiệp, tập dữ liệu tài sản quốc gia như đất đai, tài nguyên thiên nhiên, công trình hạ tầng v.v.. thuộc đối tượng do cơ quan nhà nước được Chính phủ giao quản lý.

Trong đó, dữ liệu về người dân tồn tại trong một tập  dữ liệu do Bộ Công an quản lý dựa trên hộ khẩu.  Một tập dữ liệu khác do Bộ Tư pháp quản lý dựa trên  hộ tịch. Các tập con về người dân do Bộ Y tế, Giáo  dục đào tạo, Lao động thương binh xã hội và các  ngành khác nhau quản lý. Thông tin về cùng một  người dân ở các tập dữ liệu này không giống nhau  và chưa biết ở tập nào là chính xác, để có thể làm  căn cứ chuẩn hóa dữ liệu dân cư, phục vụ hoạt động  quản lý trật tự an toàn, an sinh xã hội, giải quyết  thủ tục hành chính công, hỗ trợ người dân thực hiện  nghĩa vụ đối với đất nước và xây dựng chiến lược,  quy hoạch nguồn nhân lực cho phát triển kinh tế xã  hội của đất nước. Bài viết này đề cập đến vai trò của các thực thể dữ liệu cốt lõi tham gia vào quá trình  hoạt động của các cơ quan như các dữ liệu gốc, cần  phải được làm sạch, chuẩn hóa và lưu trữ trong các  kho dữ liệu quốc gia để phục vụ dùng chung cho  các hệ thống thông tin, tạo cơ sở hạ tầng vững chắc  phục vụ triển khai chính phủ điện tử.

I. GIỚI THIỆU CHUNG

Thực hiện Hiến pháp và pháp luật, các cơ quan, tổ  chức thuộc Chính phủ theo chức năng, nhiệm vụ và  thẩm quyền phải quản lý nhân khẩu, hộ khẩu, hộ  tịch, thực hiện cung cấp dịch vụ sự nghiệp y tế, giáo  dục, lao động việc làm và an sinh xã hội cho người  dân, đồng thời yêu cầu người dân phải có nghĩa vụ  bảo vệ và xây dựng đất nước thông qua nghĩa vụ  quân sự, nghĩa vụ thuế,… Theo đó, trong thời gian  qua, các hoạt động này đã tạo ra một lượng dữ liệu  khổng lồ, phản ánh toàn bộ trách nhiệm của cơ quan  nhà nước đối với người dân, doanh nghiệp, cũng như phản ánh đầy đủ hoạt động của người dân với  quyền công dân của mình. Tuy nhiên, có một số vấn  đề nảy sinh khi các cơ quan nhà nước, ứng dụng  CNTT trong nội bộ của cơ quan mình nhằm tin học  hóa công tác nghiệp vụ và số hóa dữ liệu, thực hiện  theo các văn bản quy phạm pháp luật, chính sách  của Chính phủ như Nghị định số 64/2007/NĐ-CP,  Quyết định số 43/2008/QĐ-TTg, 48/2009/QĐ-TTg  và 1605/QĐ-TTg.

Thứ nhất , báo cáo ứng dụng CNTT năm 2010 của Bộ Thông tin và Truyền  dụng CNTT trong hoạt động của cơ quan nhà nước  năm 2011 [1] cho thấy ứng dụng CNTT chưa hình  thành cán bộ, công chức, viên chức điện tử (theo thuật  ngữ chung là cán bộ xử lý thông tin – information  worker  [2]).  Chưa  xây  dựng được  cán  bộ  lãnh đạo  điện tử để hình thành một môi trường làm việc điện  tử thông suốt trong cơ quan nhà nước và biến cơ quan  dựa trên hành chính truyền thống trở thành cơ quan  điện tử để đối phó tốt hơn với các thách thức của xã  hội đầy biến động trong thời kỳ mới.

Thứ hai, cũng theo báo cáo này, ứng dụng CNTT  cung cấp dịch vụ công trực tuyến chủ yếu tập trung  ở mức độ 2, chỉ một số ít các đơn vị “mạnh dạn”  triển khai một số dịch vụ công ở mức độ  3. Nhờ đó, tạo thêm một kênh trao đổi  thông  tin  giữa  chính  quyền  và  người  dân,  doanh  nghiệp,  nhưng  kênh  trao  đổi  này  chưa  thực  sự đáp  ứng được  yêu cầu với mong muốn tạo thay đổi về  nhận thức cho người dân, doanh nghiệp  tiếp cận với chính quyền để thực hiện  quyền công dân.

Thứ ba, một trong các nguyên nhân  chủ quan chính là ứng dụng CNTT rời  rạc, kiểu “silo” tạo các “ốc đảo” dữ liệu  trong mỗi đơn vị trong cơ quan và mỗi cơ quan trong Chính phủ. Bên cạnh đó, theo thói  quen, phương pháp làm việc truyền thống nhu cầu  chia sẻ thông tin, dữ liệu giữa các cán bộ trong một  đơn vị, giữa các đơn vị trong một cơ quan và giữa  các cơ quan trong Chính phủ còn rất hạn chế, dựa  trên quan hệ hành chính truyền thống là chủ yếu.  Điều này dẫn đến sự rời rạc giữa các hệ thống thông  tin trong đơn vị, cơ quan và chưa có giải pháp nào  để tích hợp, kết nối liên thông giữa các hệ thống  thông tin trong các cơ quan nhà nước.

Thực hiện Quyết định số 93/2007/QĐ-TTg ngày 22/6/2007  của  Thủ  tướng  Chính  phủ  ban  hành  Quy chế thực hiện cơ chế một cửa, cơ chế một cửa  liên thông tại cơ quan hành chính Nhà nước ở địa phương và Chỉ thị số 15/CT-TTg ngày 22/5/2012  của  Thủ  tướng  Chính  phủ  về  việc  tăng  cường  sử dụng văn bản điện tử trong hoạt động của cơ quan  nhà nước, yêu cầu ứng dụng CNTT trong hoạt động  của cơ quan nhà nước phải tích hợp, kết nối và trao  đổi dữ liệu điện tử, hướng tới thay đổi phong cách  làm việc của cán bộ, công chức, thay đổi cách thức  tiếp cận thông tin của người dân, doanh nghiệp và  đặc biệt thay đổi quan trọng đến phương thức quản  trị nguồn lực thông tin, chúng ta phải coi nguồn lực này là một loại “tài sản”[3] đặc biệt trong cơ quan,  cần phải nghiêm túc quản lý của cơ quan, đơn vị  trong thời kỳ mới.

Nhằm phản ứng nhanh với tình hình phát triển  của kinh tế, xã hội, an ninh, ngoại giao, thông tin  trong công tác lãnh đạo, chỉ đạo và điều hành (công  tác quản trị) cơ quan, việc một số cơ sở dữ liệu đã  trở thành cấp thiết ở các cơ quan như tài chính, hải  quan, thuế, kho bạc, ngân hàng, bảo hiểm xã hội,  giáo dục, y tế, an toàn trật tự xã hội, lao động việc  làm… Khi năng lực lãnh đạo, quản lý và chuyên  môn đã vượt quá sức người, chúng ta không thể chủ  động giải quyết được các công việc hàng ngày theo  phương pháp truyền thống, cũng như không có đủ  thông tin cần thiết để ra quyết định trong công tác  lãnh đạo, chỉ đạo. Khi đó, thông tin được coi như  một tài sản [3] và quản lý thông tin trong tổ chức  trở thành một khoa học về quản trị nguồn lực thông  tin nhằm đảm bảo tạo lập, lưu trữ và khai thác một  cách có hiệu quả, phục vụ hoạt động nội bộ cơ quan  và hoạt động của cơ quan với bên ngoài, nói chung là hoạt động của Chính phủ.

II. MỘT SỐ KHÁI NIỆM CƠ BẢN

Trong quá trình hoạt động, dữ liệu được tạo ra  phản ánh tính lịch sử, trạng thái của cơ quan, tổ  chức. Quá trình vận hành của Chính phủ theo chiến  lược, quy hoạch, chương trình phát triển quốc gia,  của các cơ quan theo kế hoạch phát triển phù hợp  với chiến lược, quy hoạch, chương trình quốc gia và  dữ liệu của Chính phủ nói chung, mỗi cơ quan nói  riêng là một chuỗi các “trạng thái” hoạt động theo  thời gian, phản ánh kết quả đạt được trong từng giai  đoạn, phục vụ công tác đánh giá so với kế hoạch,  quy hoạch và chiến lược phát triển và hỗ trợ công  tác dự báo cho Chính phủ trong thời kỳ tiếp theo.  Như vậy, dữ liệu cơ bản được chia làm ba nhóm,  đặc trưng bởi tính chất và mục đích sử dụng trong  cơ quan:

Dữ liệu giao dịch (Transactional data): Là những  dữ liệu hỗ trợ các hoạt động của một tổ chức và được bao gồm trong các hệ thống ứng dụng tự động hóa  quy trình nghiệp vụ chủ chốt như nghiên cứu, tham  mưu,  kiểm  tra,  giám  sát,  giải  quyết  thủ  tục  hành  chính v.v.. Thông thường, dữ liệu giao dịch đề cập  đến các dữ liệu được tạo ra và cập nhật trong hệ  thống hoạt động. Ví dụ về các dữ liệu giao dịch bao  gồm thời gian, địa điểm, phí, lệ phí, phương thức  thanh toán v.v.. Dữ liệu giao dịch thường được lưu  trữ trong các bảng dữ liệu đã được chuẩn hóa của  các hệ thống thông tin xử lý giao dịch trực tuyến với  thiết kế đảm bảo tính toàn vẹn dữ liệu. Thay vì là  đối tượng của một giao dịch chẳng hạn như người  dân, doanh nghiệp hoặc thủ tục hành chính, dữ liệu  giao dịch là các dữ liệu mô tả bao gồm cả thời gian  và các giá trị số, từ đây gọi là dữ liệu hoạt động.

Dữ liệu phân tích (Analytical data): Là các giá trị  số hoặc số liệu được thu thập theo thời gian, nhờ đó  phân tích và đo lường dựa trên các thông tin nghiệp  vụ  của tổ chức. Thông thường phân tích dữ liệu được lưu  trữ trong xử lý phân tích trực tuyến (OLAP) kho tối ưu  hóa để hỗ trợ quyết định, chẳng hạn như các kho dữ  liệu  tả như là các sự kiện và các giá trị số trong một mô  hình đa chiều. Thông thường, dữ liệu phân tích nằm  trong trong các bảng sự kiện (fact table) với các chiều  dữ  tài khoản, địa điểm, và ngày/thời gian (dữ liệu phân  tích còn được gọi là dữ liệu lịch sử). Tuy nhiên, dữ liệu  phân tích được định nghĩa là các phép đo bằng số chứ  không phải là dữ liệu mô tả.

Dữ  liệu  gốc  (Master  data)  [4]:  Tham  chiếu đến khái niệm tài sản của tổ chức như thông tin khách  hàng,  sản  phẩm, đối  tác, địa điểm,... Đây  là  các  thành phần “tĩnh” mô tả chính xác tổ chức này là  ai, có chức năng, nhiệm vụ gì, địa điểm ở đâu, kết  quả hoạt động là những cái gì… Theo đó, tất cả các  loại dữ liệu khác của tổ chức được dẫn xuất dựa trên  dữ liệu gốc, ví dụ trong doanh nghiệp nếu khách  hàng A mua 100 sản phẩm X của doanh nghiệp vào  20/01/2007 cho thấy giao dịch này dựa trên các dữ  liệu gốc của doanh nghiệp này, đó là khách hàng A  và sản phẩm X. Dữ liệu gốc thường có vòng đời dài,  được biểu hiện bằng “danh từ”, khác với dữ liệu giao  dịch là “động từ”, nên được sử dụng bởi nhiều hệ  thống thông tin nghiệp vụ.

Dữ liệu gốc đôi khi còn được nhắc đến với cái tên  dữ liệu nền tảng [3], từ đó hình thành nên các dữ  liệu khác của tổ chức. Vì vậy, mức độ chính xác và  cơ chế khai thác dữ liệu gốc trong một tổ chức có  tầm đặc biệt quan trọng. Từ đó cho thấy ý nghĩa  và vai trò dữ liệu gốc là nguồn dữ liệu được tạo lập  ban đầu, được các hệ thống thông tin trong toàn bộ  tổ chức khai thác, sử dụng chung, cụ thể hơn được  trình bày trong phần tiếp theo của bài viết.

III. VAI TRÒ CỦA DỮ LIỆU GỐC TRONG CÁC DỮ LIỆU QUỐC GIA

Đặc điểm của dữ liệu

Như phần trên đã đề cập, dữ liệu được phân thành  các loại là dữ liệu gốc, dữ liệu hoạt động và dữ liệu  lịch sử. Dữ liệu gốc tham chiếu tới các đặc trưng của  các đối tượng nghiệp vụ cốt lõi của tổ chức [3] với các lớp dữ liệu gốc  điển  hình  như  dữ  liệu  về  nguyên  vật  liệu  và  sản  phẩm,  dữ liệu khách hàng,  nhà cung cấp và dữ  liệu  về  người  lao  động và tài sản của  tổ chức. Dữ liệu hoạt  động mô tả các hoạt động nghiệp vụ, thể  hiện  qua  các đầu  vào, đầu ra của quy  trình  nghiệp  vụ  và  dữ  liệu  hoạt động  được  tạo  lập  tức  thời  theo dòng hoạt động nghiệp vụ. Trong quá trình đó,  nó tham chiếu đến dữ liệu gốc và cập nhật thay đổi  tới dữ liệu lịch sử theo thời gian [3]. Trên cơ sở đó, các đặc điểm khác nhau giữa các loại dữ liệu này  được trình bày trong bảng 1 [5]. sử sẽ phản ánh đầy  đủ  tình  hình  hoạt động, “sức khỏe”, độ  lệch  so  với  phương  hướng  phát  triển  của  tổ  chức  ở  từng  thời điểm  xem  xét,  cũng  như  giúp  tổ  chức dự báo sớm các  giả định có thể xảy  ra trong tương lai để  kịp  thời  căn  chỉnh  phương  hướng  phát  triển của tổ chức cho  phù  hợp.  Với  lý  do này, dữ liệu lịch sử thường được tổ chức quản lý tập  trung tại cấp tổ chức cùng với dữ liệu gốc.

Bên cạnh đó, đối với Việt Nam, chúng ta đã biết đến các cơ sở dữ liệu quốc gia như dân cư, doanh  nghiệp, tài nguyên môi trường, văn bản quy phạm  pháp  luật,  tài  chính  ngân  sách,  thương  mại  công  nghiệp. Đây là các kho dữ liệu quốc gia tổ chức quản  lý các đối tượng dữ liệu gốc về người dân, doanh  nghiệp, cơ quan quản lý nhà nước các cấp, nguồn  tài nguyên dựa trên lớp địa hình, cơ sở hạ tầng dựa  trên  các  lớp địa  chính được  quản  lý  theo  ngành,  các nguồn lực tài chính ngân sách, các sản phẩm,  hàng hóa, dịch vụ thuộc các hoạt động thương mại  công nghiệp. Gần đây, chúng ta còn biết đến cơ sở  dữ liệu quốc gia về thủ tục hành chính gồm các đối  tượng dữ liệu về thủ tục hành chính được phân loại,  sắp xếp và tổ chức cho ngành, lĩnh vực quản lý nhà  nước phục vụ nhu cầu cơ bản của người dân, doanh  nghiệp. Cùng với lịch sử phát triển của đất nước, dữ  liệu về các đối tượng này đã được các cơ quan nhà  nước có liên quan tổ chức thu thập, quản lý và lưu  trữ. Tuy nhiên, chúng còn manh mún; thiếu nhất

Dựa trên kết quả đánh giá của bảng 1, ví dụ đối  với các tổ chức có hai cấp quản lý (cấp tổ chức, cấp  phòng ban chức năng trực thuộc), chúng ta thấy dữ  liệu gốc có đặc điểm là: mức độ sử dụng cao, tần  suất thay đổi thấp và ít phụ thuộc thời gian, nên  tổ chức quản lý tập trung tại cấp tổ chức; dữ liệu  hoạt động phụ thuộc vào thời gian, dung lượng lưu  trữ lớn và hầu như chỉ sử dụng vài lần nhằm phản  ánh thông tin về một hoạt động chuyên môn đang  diễn ra nên tổ chức quản lý riêng tại từng phòng,  ban; dữ liệu lịch sử được phản ánh theo thời gian,  các tần suất cập nhật thường xuyên khi dữ liệu hoạt  động diễn ra, dung lượng lưu trữ thấp, mức độ sử  dụng lại không cao nên có thể tổ chức quản lý đồng  thời tại cấp tổ chức và cấp phòng ban (xem xét thêm  nhu cầu sử dụng và dung lượng lưu trữ để quyết  định). Ngoài ra, dữ liệu gốc kết hợp với dữ liệu lịch quán, đồng bộ, toàn diện; chưa có giải pháp tổng  thể trong việc chuẩn hóa, làm sạch, lưu trữ và duy  trì phục vụ triển khai tốt ứng dụng CNTT trong hoạt  động của cơ quan nhà nước, xây dựng chính phủ điện tử.

Các vấn đề cơ bản cần giải quyết

- Mức độ chính xác của dữ liệu gốc: Điển hình là sự nhầm lẫn về dữ liệu trong công tác quản lý hộ tịch gây nhiều phiền hà cho người dân, người dân  thường xuyên phải cải chính các thuộc tính định  danh của mình, nhưng chưa rõ nguồn dữ liệu gốc  nào làm chuẩn để cải chính.

- Các hoạt động giải quyết thủ tục hành chính  công cho người dân, doanh nghiệp giữa các cơ quan  chính quyền mà chúng ta thường gọi là kết nối liên  thông trong quan hệ hành chính thường xuyên đòi  hỏi kiểm tra, xác minh, chứng thực dữ liệu gốc của  người dân, doanh nghiệp, dữ liệu gốc về tài sản,  quyền và điều kiện giải quyết thủ tục hành chính  công đã gây kéo dài thời gian, tốn nhiều chi phí  hoạt động thường xuyên của ngân sách.

- Số lượng đối tượng dữ liệu gốc  không đầy đủ  gây  ra  nhiều  khó  khăn trong việc hoạch định chính  sách vĩ mô, quản trị các nguồn lực  phục vụ phát triển kinh tế xã hội.

- Cơ sở dữ liệu gốc cấp quốc gia  khó  hình  thành, đặc  biệt  các  cơ  sở dữ liệu gốc về dân cư và doanh  nghiệp là nguyên nhân dẫn đến  Chính phủ gặp rất nhiều khó khăn  trong việc quản lý nghĩa vụ thuế  của người dân, doanh nghiệp.

- Cơ sở dữ liệu gốc về tài chính  ngân  sách,  thương  mại  công  nghiệp chưa hình thành cũng gây nhiều khó khăn trong công tác điều hành vĩ mô của  Chính phủ, hội nhập kinh tế quốc tế và đặc biệt là  công cuộc tái cấu trúc nền kinh tế.

- Cơ sở dữ liệu gốc về văn bản quy phạm pháp  luật chưa đầy đủ gây nhiều khó khăn trong công tác  cải cách hành chính.

Như vậy, vai trò của dữ liệu gốc là đặc biệt quan  trọng trong toàn bộ hoạt động của Chính phủ, thúc  đẩy các hoạt động trong xã hội phát triển và cùng  với dữ liệu lịch sử tạo thông tin hỗ trợ ra các quyết  định mọi mặt về kinh tế, văn hóa, xã hội. Việc thực  hiện Đề án tái cấu trúc nền kinh tế chắc chắn đòi  hỏi tính cấp thiết phải có dữ liệu gốc đầy đủ, chính  xác. Phần tiếp theo của bài viết sẽ tập trung đề cập  đến các nguyên tắc cơ bản tổ chức dữ liệu gốc trong  kho dữ liệu quốc gia, làm cơ sở để xác định phương  án triển khai, hình thành cơ sở dữ liệu quốc gia.

IV. NGUYÊN TẮC CƠ BẢN TỔ CHỨC DỮ LIỆU GỐC TRONG DỮ LIỆU QUỐC GIA

Theo kinh nghiệm tổ chức triển khai cơ sở dữ liệu quốc gia về thủ tục hành chính,  tài nguyên môi trường (chủ yếu là  đất đai), để xây dựng được cơ sở  dữ liệu quốc gia ở thời điểm này,  chúng  ta  phải  tổ  chức  thu  thập,  rà  soát,  phân  loại,  sắp  xếp,  cấp  mã đối tượng một cách tập trung,  thống nhất ở cấp quốc gia. Sau đó  áp  dụng  kỹ  thuật,  công  nghệ để  số hóa, sao lưu và cập nhật biến  động  các đối  tượng  dữ  liệu  gốc  dựa trên phản ánh của dữ liệu lịch  sử  một  cách đồng  bộ  với  dữ  liệu  hoạt động. Các yếu tố này yêu cầu  Chính phủ phải thống nhất cách tổ  chức dữ liệu gốc và dữ liệu lịch sử trong cơ quan nhà nước theo một bộ nguyên tắc, quy định cơ bản bao gồm:

Về tổ chức dữ liệu

Cũng tương tự các loại dữ liệu khác, nhằm phục  vụ cho hoạt động khảo sát, phân tích, thiết kế và cài  đặt các kho dữ liệu quốc gia, chúng ta tiếp tục phân  rã dữ liệu thành 6 thể loại khác nhau như Hình 2 với  các mục đích rõ ràng:

Trong đó:

- Dữ liệu đặc tả được hiểu như khoản 6, Điều 3 Nghị định  số  43/2011/NĐ-CP  ngày  13/6/2011  là  những thông tin mô tả các đặc tính của dữ liệu như  nội dung, định dạng, chất lượng, điều kiện và các  đặc tính khác nhằm tạo thuận lợi cho quá trình tìm  kiếm, truy cập, quản lý và lưu trữ các loại dữ liệu  khác.

- Dữ liệu tham chiếu là dữ liệu danh mục, giúp  phân loại dữ liệu gốc theo tính chất, đặc điểm, nhu  cầu quản lý, khai thác v.v.. Đôi khi, người ta nhầm  lẫn giữa dữ liệu tham chiếu và dữ liệu gốc. Cách  thức phân biệt tốt nhất giữa dữ liệu tham chiếu và  dữ liệu gốc là ở các đặc điểm: dữ liệu gốc phải có  định danh, dữ liệu tham chiếu có nghĩa và ngược  lại. Do đó, giữa dữ liệu gốc và dữ liệu tham chiếu  có mối quan hệ hữu cơ. Khi dữ liệu gốc sinh ra, mới  yêu cầu phải bổ sung loại dữ liệu gốc hay dữ liệu  tham chiếu mới [3]. Ví dụ khi một sản phẩm “lạ”  xuất hiện trên thị trường, các cơ quan quản lý liên quan (chủ trì là Bộ Công thương) sẽ tiến hành xem  xét, đề nghị bổ sung vào danh mục sản phẩm, từ đó  giúp các Bộ ngành khác xem xét bổ sung thêm vào  danh mục sản phẩm được nhà nước quản lý như các  yếu tố kỹ thuật, yếu tố giá cả, và các yếu tố khác có  liên quan.

Kết hợp với dữ liệu gốc, dữ liệu lịch sử và các cơ  chế phân phối dữ liệu gốc, cơ chế cập nhật dữ liệu  lịch sử từ các hệ thống thông tin cho phép xây dựng một kiến trúc dữ liệu gốc [5] của kho dữ liệu quốc  gia. Theo đó, kiến trúc này bao gồm hai phần: Mô  hình dữ liệu gốc mức khái niệm và một kiến trúc  ứng dụng với các ứng dụng tạo lập, lưu trữ và cập  nhật các đối tượng dữ liệu thuộc các loại dữ liệu đã  được quy định trong mô hình dữ liệu gốc mức khái  niệm. Ngoài ra, kiến trúc này có bản chất là kiến  trúc thông tin của Chính phủ với phạm vi hạn chế  trong các loại dữ liệu gốc hay dữ liệu tham chiếu.  Hình 3 mô tả về tổ chức thành phần chính trong  kiến trúc dữ liệu gốc.

Về quản lý vòng đời dữ liệu

- Dựa trên các quy định hiện hành về quy trình quản lý dữ liệu gốc ví dụ quản lý hộ tịch, hộ khẩu,  quản lý đất đai, quản lý tài chính, quản lý kinh tế,  quy trình soạn thảo văn bản quy phạm pháp luật,  v.v.. Do đó, để đảm bảo quản lý được vòng đời của  dữ liệu gốc, Chính phủ cần chỉ đạo các Bộ, ngành có liên quan, trước mắt, việc làm trước là chuẩn hóa  lại quy trình quản lý đối tượng dữ liệu gốc từ nơi,  thời điểm, quyền giao quản lý (ownership) dọc theo  các ngành và ngang theo cấp hành chính (ở đây đề  cập đến chức năng khi ứng dụng CNTT vào quản lý,  khai thác, có đổi ngược vai trò so với quản lý truyền  thống).

- Chất lượng dữ liệu gốc: phụ thuộc vào các quy định phối hợp xử lý liên cấp, liên ngành nhằm đảm  bảo tính nhất quán, chính xác và toàn vẹn dữ liệu  gốc.  Các  quy định  này  yêu  cầu  tính  hiệu  lực,  sử  dụng các kỹ thuật, công nghệ để làm sạch và duy  trì dữ liệu gốc.

- Quản lý dữ liệu đặc tả: khi có một vài thay đổi  trong định nghĩa dữ liệu gốc sẽ gây ảnh hưởng đến  các điểm khai thác, sử dụng dữ liệu gốc ví dụ như  mô hình dữ liệu hiện tại mất hiệu lực, phá vỡ cấu  trúc các mẫu báo cáo, gây mất nhất quán dữ liệu  gốc trên bình diện tổng thể.

- Quản lý đồng bộ dữ liệu: cách thức tổ chức dữ  liệu gốc ở cấp quốc gia cũng sẽ có một số vấn đề  về yêu cầu dữ liệu gốc theo thời gian thực dựa trên vị trí địa lý trên toàn quốc, cần phải có một cơ chế  đồng bộ dữ liệu trong kho dữ liệu gốc đảm bảo phân  phối dữ liệu gốc nhanh chóng, kịp thời theo nhu  cầu, đặc biệt là các nhu cầu đột biến của các cơ  quan nhà nước từ Trung ương tới địa phương, có thể  xuống đến cấp xã/phường.

- Quản trị dữ liệu: dữ liệu gốc là tài sản quốc gia,  có tính bí mật theo quy định của pháp luật hiện  hành. Do đó, yêu cầu đối với quản trị dữ liệu phải  tuân thủ các quy trình, thủ tục bao gồm quyền và  trách nhiệm theo cơ quan, con người, vai trò. 

Đối với kỹ thuật, công nghệ

Cùng với sự phát triển của CNTT, hoạt động ứng dụng CNTT trong cơ quan nhà nước đã được nâng  lên một bước. Điều này thể hiện qua bảng xếp hạng  chính phủ điện tử của Liên hợp quốc năm 2012,  Việt Nam từ vị trí số 90 năm 2011 đã nhảy lên 7 bậc  để xếp hạng số 83 [6]. Đây là một nỗ lực rất lớn của  Chính phủ về đẩy mạnh ứng dụng CNTT tạo mức độ  sẵn sàng triển khai chính phủ điện tử. Bên cạnh đó,  chúng ta cần nhìn lại hiện trạng còn nhiều manh  mún, nhỏ lẻ và thiếu kế hoạch tổng thể dẫn đến  ứng dụng CNTT trong phạm vi hẹp, tạo nên các “ốc  đảo” dữ liệu, gây cản trở rất lớn trong việc tích hợp,  giải quyết bài toán liên thông trong nội bộ cơ quan  nhà nước, giữa các cơ quan nhà nước.

Về khía cạnh công nghệ, có bảy cách để tích hợp [7], phục vụ bài toán liên thông, trong đó phổ biến là:

- Tích hợp lớp dịch vụ: Kỹ thuật dịch vụ web (Web  Service) đã được dùng phổ biến trong các ứng dụng  CNTT, nhưng chủ yếu tập trung vào giải quyết thủ  công, “may đo” theo yêu cầu tự phát.

- Tích hợp lớp giữa (Middleware): Kỹ thuật trục  tích  hợp  ESB  (Enterprise  Service  Bus) đang  thử  nghiệm  trong  phạm  vi  hẹp  (Proof  of  Concept) để  hình thành hệ thống mạng truyền tin, kết nối theo  cấp quản lý.

Mấy năm gần đây, kỹ thuật quản lý dữ liệu gốc MDM  (Master  Data  Management)  [4]  ra đời,  bên  cạnh khả năng giúp các tổ chức quản trị nguồn tài  sản quan trọng trong thời kỳ “kinh tế tri thức”, còn  thúc đẩy, tạo động lực tích hợp, kết nối liên thông  có tính thực tiễn hơn. MDM cho phép tổ chức, quản  trị dữ liệu gốc trong toàn bộ tổ chức, thúc đẩy các  giải pháp tích hợp lớp giữa, tích hợp lớp dịch vụ có  “cơ hội” phát huy để hình thành một “không gian  kiến  trúc”  theo  kiểu  SOA  toàn  diện.  Và đây  cũng  là  con đường  mà  các  tổ  chức  lớn  như  các  doanh  nghiệp đa quốc gia, các Chính phủ trên thế giới lựa chọn, ưu tiên triển khai trước khi tiến hành xem xét,  kiện toàn tin học hóa toàn bộ tổ chức.

V. KẾT LUẬN

Dữ liệu gốc mô tả các loại nguồn lực cấp quốc gia  do Nhà nước quản lý, được tổ chức tạo lập, làm sạch,  lưu trữ và duy trì trong các kho dữ liệu quốc gia, góp  phần giúp Chính phủ, các Bộ ngành, địa phương  hoạch định và quản trị tốt các loại nguồn lực đặc  biệt của quốc gia, phục vụ phát triển kinh tế xã hội,  đảm bảo an toàn trật tư, an sinh xã hội và công tác đối ngoại. Bài viết này tập trung làm rõ vai trò của  dữ liệu gốc, nhu cầu cấp thiết phải quản lý được dữ  liệu gốc thông qua việc triển khai các kho dữ liệu  quốc gia để phục vụ phát triển ứng dụng CNTT, xây  dựng chính phủ điện tử và đề cấp đến kỹ thuật tích  hợp  mức  dữ  liệu  MDM  như  là  một  giải  pháp  xây  dựng kho dữ liệu quốc gia được ưu tiên hàng đầu  khi xây dựng chính phủ điện tử.

Tài liệu tham khảo

[1]. AITA, Báo cáo ứng dụng CNTT 2010, Bộ Thông tin và Truyền thông, 06/2010.

[2]. JACK RABIN, EDWARD M. JACKOWSKI, Handbook of Information Resource Management, Public Administration and  Public Policy/31, Marcel Dekker, Inc, USA, 1998.

[3]. DAMA The Dama Guide to the Data Management of Knowledge, Technics Publications, Bradley Beach, New Jersey, 2009.

[4]. WHITE, A., NEWMAN, D., LOGAN, D., RADCLIFFE, J. Mastering Master Data Management, Gartner, Stamford 2006.

[5]. OTTO, B., & SCHMIDT, A. (2010). Enterprise Master Data Architecture: Design Decisions and Options. In Proceedings of the  15th International Conference on Information Quality.

[6]. Báo cáo kết quả đánh giá Chính phủ điện tử cho con người của Liên Hợp quốc, 28/02/2012.

[7]. KENVIN QUINN, Is a Data Warehouse the Only Option for Business Intelligence? Seven Styles of Data Integration, A White  Paper, iWay Software, Two Penn Plaza, New York, NY 10121-2898, 2007.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Vai trò của dữ liệu gốc trong xây dựng và khai thác DỮ LIỆU QUỐC GIA
POWERED BY ONECMS - A PRODUCT OF NEKO