Tóm tắt

Dữ liệu là khởi nguồn của tất cả mọi chiến lược CĐS, xây dựng chính phủ số, phát triển kinh tế số, thiết lập xã hội số. Dữ liệu cũng chính là “hồn cốt” của các công nghệ mới như trí tuệ nhân tạo (AI).

Tọa đàm chủ đề "Dữ liệu số, Trí tuệ nhân tạo và Đổi mới sáng tạo" đã được Tạp chí Thông tin và Truyền thông tổ chức với sự tham gia của các chuyên gia dữ liệu và trí tuệ nhân tạo (AI). Nhiều vấn đề “nóng” liên quan đến xây dựng cơ sở dữ liệu (CSDL), chiến lược phát triển AI đã được các chuyên gia bàn thảo chi tiết, nhấn mạnh đến vai trò, thuận lợi cũng như những khó khăn, rào cản khi xây dựng và quản trị CSDL tại Việt Nam. Tọa đàm cũng đưa ra bài học kinh nghiệm, ý kiến đề xuất nhằm phát triển và quản trị dữ liệu số, ứng dụng AI, thúc đẩy CĐS, xây dựng chính phủ số, xã hội số.

Tạp chí Thông tin và Truyền thông đã tổ chức Tọa đàm "Dữ liệu số, Trí tuệ nhân tạo và Đổi mới sáng tạo" với sự tham gia của các chuyên gia dữ liệu và AI.

Những vấn đề đặt ra với bài toán quản trị dữ liệu

Theo TS. Đặng Minh Tuấn, Viện trưởng Viện Nghiên cứu Ứng dụng Công nghệ CMC (CMC CIST), chúng ta đang hoạt động trong lĩnh vực công nghệ thông tin và thông tin (CNTT-TT) ở đây chính là dữ liệu. Từ lâu, thông tin luôn luôn có giá trị và đặc biệt trong bối cảnh CĐS hiện nay, thông tin và dữ liệu lại càng quan trọng. Từ những thông tin và dữ liệu giá trị đó, chúng ta có thể sáng tạo, tạo ra những giải pháp thông minh hơn, hiệu quả hơn cũng như tạo ra những ngành nghề mới mà trước đây chưa có.

TS. Đặng Minh Tuấn cho biết theo một số thống kê, cứ khoảng sau 18 tháng đến 2 năm, dữ liệu trên Internet tăng gấp đôi. Tại Việt Nam, thống kê trong năm 2023 của Bộ TT&TT cho thấy dữ liệu tăng khoảng 30% so với năm trước. Một điều rõ ràng là tất cả các quá trình hoạt động, điều hành của các tổ chức và cá nhân đều dựa trên thông tin và dữ liệu. Thông tin và dữ liệu quý giá như vậy, và cũng sinh ra ngày càng nhiều, nên việc quản lý, xử lý một khối lượng dữ liệu lớn sẽ cần rất nhiều tài nguyên, công sức. Việt Nam đã có chiến lược về dữ liệu cũng như chiến lược CĐS quốc gia đến năm 2025 và tầm nhìn đến 2030. Tuy nhiên, câu chuyện xây dựng và quản trị dữ liệu vẫn có rất nhiều vấn đề cần giải quyết.

Ông Lê Công Thành, Tổng Giám đốc Công ty công nghệ InfoRe Technology, công ty chuyên xử lý dữ liệu lớn (big data) và ứng dụng AI, cho biết vốn là một sinh viên trường Đại học Thủy lợi, trong quá trình học đại học, ông Thành được cảm nhận một cái gọi là “nguồn tài nguyên quốc gia cực kỳ quý giá”, đó là tài nguyên nước.

“Mọi người hay ví von dữ liệu giống như một loại dầu mỏ mới hay là xăng mới. Nhưng nhìn theo một khía cạnh khác, dữ liệu cũng giống như tài nguyên nước”, ông Lê Công Thành nói. “Mọi người hay nói về dữ liệu lớn nhưng thật ra giống như tài nguyên nước, dữ liệu lớn cũng đến từ các dữ liệu nhỏ, tức là dữ liệu của từng cá nhân. Chính vì thế, nếu chúng ta tạo chính sách và giúp từng cá nhân tích lũy nguồn dữ liệu của mình và giúp mọi người cộng hưởng chia sẻ dữ liệu thì chúng ta có thể phát triển nguồn dữ liệu khổng lồ”.

Tích lũy dữ liệu cá nhân, bảo vệ dữ liệu cá nhân và chia sẻ dữ liệu cá nhân có thể chia sẻ để cộng hưởng với nhau, Việt Nam sẽ có một nguồn tài nguyên quốc gia “rất khổng lồ”. Nguồn dữ liệu này không ngừng sinh ra, không ngừng chảy, giống như những giọt nước mưa tạo thành sông lớn.

Dữ liệu có thể sinh ra ngày càng nhiều và tạo thành nguồn dữ liệu lớn. Song bài toán đặt ra là làm thế nào để xây dựng và quản trị dữ liệu, làm thế nào dữ liệu đó không “chảy ra biển” mà sẽ phát huy giá trị là điều không dễ dàng. Ông Lê Công Thành cho biết, dữ liệu giống như nước, vậy thì chỉ có nước tinh lọc mới có giá trị cao nhất, dữ liệu cũng tương tự như vậy. Vì thế, điều quan trọng là phải tinh lọc dữ liệu, biến dữ liệu thành thông tin giá trị, thành tri thức quý và thậm chí là chế xuất thành trí tuệ nhân tạo.

Cũng nhằm giải quyết bài toán quản trị dữ liệu, TS. Đặng Minh Tuấn cho rằng: “Cái quan trọng nhất theo cá nhân tôi đối với dữ liệu chính là sự tin cậy. Chúng ta CĐS và chúng ta dựa vào dữ liệu để quản lý, điều hành và ra quyết định. Dữ liệu sai sẽ dẫn đến quyết định sai. Cho nên điều đầu tiên là dữ liệu phải cực kì chuẩn và có độ tin cậy”.

Khi đã đảm bảo về độ tin cậy rồi, việc quản trị dữ liệu còn liên quan đến một loạt các vấn đề, như bảo vệ dữ liệu cá nhân, chế tài để tránh lạm dụng dữ liệu hay là sửa hoặc là sử dụng sai mục đích đối với dữ liệu.

Kinh nghiệm quản trị dữ liệu từ Estonia và những đề xuất cho Việt Nam

Trong buổi Tọa đàm, TS. Đặng Minh Tuấn cho biết ông may mắn đã tham quan một đất nước có hệ thống Chính phủ điện tử (CPĐT) được xem là tiên tiến nhất thế giới, đó là Estonia. Ngay từ năm 1991, Estonia đã có chủ trương về CPĐT, họ xây dựng những trục tích hợp dữ liệu.

97% dịch vụ công ở Estonia đã được làm online ở bất cứ đâu, nhờ nền tảng dữ liệu. Nghĩa là, không chỉ Chính phủ, kể cả người dân cũng quản lý dữ liệu, trong đó làm rõ những dữ liệu cá nhân nào cần chia sẻ, quyền chia sẻ dữ liệu đến đâu. Tất cả đều được quản lý rất chặt chẽ. Estonia thực hiện chia sẻ dữ liệu theo phương pháp phân cấp, phân quyền, mọi công dân đều có thể biết ai đã truy cập vào dữ liệu của họ, với mục đích gì. Chẳng hạn, cán bộ nhà nước truy cập vào dữ liệu của công dân để thực hiện dịch vụ công, nhưng nếu vì một mục đích không chính đáng, họ có thể kiện cán bộ đó vi phạm quyền dữ liệu cá nhân của công dân.

Những dữ liệu nào muốn chia sẻ, họ sẽ đưa vào một cổng để người khác có thể truy cập vào. Những dữ liệu không muốn, không cần chia sẻ vẫn được giữ bí mật. Đây là cách quản lý dữ liệu vừa tập trung, vừa phân tán, với sự phân cấp, phân quyền và quản lý chặt chẽ lịch sử truy cập, cộng với việc dữ liệu phải có tính pháp lý. Như vậy, Estonia đã giải quyết một cách trọn vẹn và Việt Nam có thể học tập, tham khảo, đảm bảo không ai có thể can thiệp, thao túng dữ liệu.

Đối với dữ liệu, cần có biện pháp quản trị chặt chẽ, bởi vì sẽ rất nguy hiểm khi dữ liệu bị thay đổi mà không có hồ sơ đối chiếu, hay dữ liệu bị rò rỉ, lạm dụng. “Chúng ta vận hành, sống, làm việc theo dữ liệu mà dữ liệu bị tham túng bởi một hay là nhiều tổ chức thì đấy là một điều nguy hại”, TS. Đặng Minh Tuấn nói.

“Chúng ta đã xem những bộ phim có nội dung viễn tưởng, nhưng đó cũng là một cảnh báo. Bởi vì khi tiến vào xã hội số, CĐS hoàn toàn rồi và dữ liệu bị thâu tóm, bị thao túng bởi một tổ chức hay cá nhân sẽ có thể làm sụp đổ cả toàn hệ thống. Vì vậy, như tôi đã nói ngay từ đầu, dữ liệu phải tin cậy, đảm bảo không bị thao túng bởi bất kỳ ai”.

Đề cập đến câu chuyện dữ liệu khoa học công nghệ, TS. Phạm Ngọc Minh, Trưởng phòng Kỹ thuật điều khiển và Hệ thống nhúng, Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam), cho biết chuyển giao dữ liệu đóng vai trò quan trọng trong nghiên cứu. “Các cơ sở nghiên cứu, trường đại học, doanh nghiệp hay bản thân các tỉnh đã hình thành sàn giao dịch công nghệ, thị trường khoa công nghệ để giúp doanh nghiệp và các cơ sở nghiên cứu có thể tiếp cận, kết nối với nhau nhanh chóng”, TS. Phạm Ngọc Minh cho biết.

“Theo quan quan điểm của tôi, ở tầm quốc gia, cần phải xây dựng một hệ thống về CSDL khoa học công nghệ quốc gia và có sự công nhận của Chính phủ về độ tin cậy dữ liệu, minh bạch dữ liệu và về nguồn gốc công nghệ liên quan đến sở hữu trí tuệ. Khi chúng tôi chuyển giao công nghệ từ những cơ quan nghiên cứu, doanh nghiệp bao giờ cũng phải chứng minh nguồn gốc công nghệ. Nếu chuyển giao một công nghệ không rõ ràng về nguồn gốc sau này sẽ dẫn đến vấn đề tranh chấp bản quyền”, TS. Phạm Ngọc Minh nói.

Không có dữ liệu, các thuật toán công nghệ, kể cả AI, chỉ như những “đứa trẻ ngây ngô”

Dữ liệu đóng vai trò quan trọng trong công cuộc CĐS, xây dựng chính phủ số, kinh tế số, xã hội số. Và dữ liệu cũng đóng vai trò rất quan trọng trong việc phát triển các công nghệ mới, mà ở đây cụ thể là AI, một công nghệ chiếm lĩnh sự chú ý của toàn thế giới trong năm 2023. Việt Nam đang ở đâu trên bản đồ AI thế giới?

Nói về việc phát triển AI, TS. Nguyễn Đức Thủy, Phó Trưởng phòng phụ trách Phòng Nghiên cứu phát triển công nghệ, Viện Công nghiệp phần mềm và nội dung số (Bộ TT&TT), một lần nữa khẳng định tầm quan trọng của dữ liệu cũng như các giải pháp quản trị, sử dụng dữ liệu. “AI đi liền với dữ liệu. Nếu mô hình thuật toán không có dữ liệu, nó chỉ như đứa trẻ ngây ngô. Có dữ liệu và được huấn luyện thì thuật toán mới thành người lớn được”, TS. Nguyễn Đức Thủy cho biết.

Cũng liên quan đến việc phát triển dữ liệu và AI, ông Đinh Trần Tuấn Linh, Giám đốc điều hành Công ty CP Công nghệ Truyền thông AIDA, cho biết là một startup chuyên phát triển các ứng dụng AI cho các ngành hẹp, trong quá trình làm công ty phát hiện ra rằng mọi người có ý muốn lưu trữ dữ liệu nhưng kỹ năng cũng như sự quyết tâm vẫn chưa đủ. Chẳng hạn, dữ liệu luôn bị phân tán, không có gắn nhãn, do đó ý muốn lưu trữ dữ liệu, phân tích dữ liệu hay làm CĐS đều gặp khó khăn.

Vì vậy, ông Đinh Trần Tuấn Linh cho rằng muốn phát triển dữ liệu, phát triển AI ở Việt Nam, việc đầu tiên là ý chí của lãnh đạo. Thứ hai là các hành động xây dựng dữ liệu phải diễn ra thường xuyên, bền bỉ, lầu dài và kiên định theo đuổi.

Còn theo ông Lê Công Thành, câu chuyện AI liên quan đến “bộ ba” gồm tài nguyên, công cụ và con người. Và trong “bộ ba” này, Việt Nam đang có hai thứ rất mạnh, đó chính là tài nguyên dữ liệu và con người.

Và để Việt Nam có thể phát triển một cách tốt nhất thì cần dựa vào những thế mạnh hiện tại của mình. Hiện nay các công ty, tập đoàn lớn trên thế giới đang chạy đua phát triển các công cụ AI và cho phép người dùng sử dụng miễn phí. So với các quốc gia lớn, rõ ràng Việt Nam vẫn còn những khoảng cách nhất định trong phát triển công nghệ. Vì thế, Việt Nam chưa nên tập trung vào việc chế tạo các công cụ AI ngay bây giờ, mà nên tập trung học cách sử dụng các công cụ AI này.

“Chúng ta sẽ phải nhìn nhận xem hiện giờ thế giới đang phát triển như thế nào và từ đó chúng ta có những giai đoạn phát triển cụ thể. Ví dụ, trong vòng ba năm tới, chúng ta không nên dồn quá nhiều nguồn lực vào việc phát triển công nghệ AI nhưng chúng ta vẫn không thể bỏ qua hoàn toàn. Ví dụ chúng ta có thể phát triển theo mô hình 80/20 tức là 80% nguồn lực dồn vào ứng dụng công nghệ mới, chấp nhận dùng những công nghệ của nước ngoài. Hiện nay, công nghệ nước ngoài đang phát triển rất mạnh và các tập đoàn đang cung cấp, cho phép sử dụng miễn phí”, ông Lê Công Thành nói. “Nhưng chúng ta cũng không nên bỏ qua việc phát triển, chỉ là không nên dồn quá nhiều nguồn lực vào việc phát triển mà thôi”.

Ngoài ra, để phát triển AI, theo TS. Đặng Minh Tuấn, không thể không đề cập đến vấn đề chính sách. Thực tế, công nghệ phát triển rất nhanh và thường có một khoảng cách giữa các văn bản luật để điều chỉnh các hành vi mới. Vì vậy, theo TS. Đặng Minh Tuấn, chúng ta phải nhanh chóng cập nhật để có những khung pháp lý tạo điều kiện những công nghệ mới phát triển. Nếu không có khung pháp lý, khi công nghệ mới ra đời chúng ta không biết áp dụng như thế nào.

“Do đó, điều đầu tiên tôi nghĩ là Chính phủ nên có những chủ trương, chính sách và đặc biệt là xây dựng và cập nhật khung pháp lý, tạo hành lang để các công nghệ mới được triển khai nhanh chóng”, TS. Đặng Minh Tuấn nói.

Tạo ra khung pháp lý phù hợp là một vấn đề cần thiết được nhấn mạnh, trong đó cần nhanh chóng và thường xuyên cập nhật để có thể theo kịp sự phát triển của công nghệ.

Trong trường hợp chưa thể nghiên cứu đầy đủ, do công nghệ phát triển nhanh và phức tạp trong khi chúng ta chưa thể hiểu được tác động của công nghệ đến kinh tế, xã hội, chúng ta cũng từng có những giải pháp như sandbox, cho phép thử nghiệm trong phạm vi hẹp để nếu có những tác động xấu, nó không lan ra ngoài, qua đó cũng theo dõi được mặt tích cực và từ đó đưa vào khung pháp lý cho phù hợp.

Tất cả những điều này cần được quan tâm và thực hiện sát sao, để tạo điều kiện cho DN phát triển. Nhiều DN không dám thử nghiệm do chưa có khung pháp lý, chưa có giấy phép sandbox, và dẫn đến họ phải đăng ký trụ sở ở nước ngoài, trở thành công ty nước ngoài, dù thực chất vẫn hoạt động ở Việt Nam

Tiếp theo là vấn đề đào tạo, nhận thức, những chính sách ươm tạo công nghệ mới và đưa vào sử dụng. “Tôi nghĩ đấy là những điều yếu tố quan trọng nhất đối với chiến lược phát triển dữ liệu số hay AI hay những công nghệ đổi mới sáng tạo khác”.