Bộ TT&TT giao Viettel phát triển mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho cán bộ, công chức
Tập đoàn Viettel đã được Bộ TT&TT phê duyệt là đơn vị nghiên cứu, thử nghiệm phát triển Mô hình ngôn ngữ lớn Tiếng Việt và trợ lý ảo cho cán bộ, công chức tại Bộ TT&TT.
Theo đó, Viettel bắt đầu thực hiện năm 2023. Cùng với đó, trách nhiệm đối với đơn vị giao nhiệm vụ này phải đảm bảo chủ động bố trí nhân lực và các nguồn lực của mình đúng theo các quy định pháp luật hiện hành.
Công cụ trợ lý ảo dành cho cán bộ, công chức (CBCCNN) nhà nước
Cụ thể hơn khi triển khai nhiệm vụ này, mục tiêu chung hướng đến nhằm xây dựng, hình thành, sử dụng bộ dữ liệu chung bằng ngôn ngữ Tiếng Việt có chất lượng tốt, độ phủ rộng để phục vụ huấn luyện khả năng giao tiếp nhuần nhuyễn cho mô hình ngôn ngữ lớn Tiếng Việt.
Đặc biệt, yêu cầu sản phẩm khi tạo ra, sử dụng như nền tảng dịch vụ mô hình ngôn ngữ lớn tiếng Việt với các thành phần cơ bản bao gồm: Công cụ phục vụ thu thập, xử lý, dán nhãn dữ liệu và các giao diện lập trình ứng dụng (API) phục vụ phát triển trợ lý ảo.
“Đặc biệt, sản phẩm trở thành công cụ trợ lý ảo phiên bản cơ bản dành cho cán bộ, công chức nhà nước và ứng dụng Trợ lý ảo phiên bản dành cho Bộ TT&TT”, Bộ TT&TT yêu cầu.
Không chỉ hướng đến những giá trị, tính năng cơ bản trên, văn bản còn yêu cầu kết quả nghiên cứu, thử nghiệm cần đạt được: Có mô hình xác suất có khả năng hiểu và sinh ngôn ngữ tự nhiên (LLM) để hỗ trợ tiếng Việt được huấn luyện hỗ trợ độ dài ngữ cảnh (context length) 4096 token; dịch vụ LLM hỗ trợ tiếng Việt truy cập thông qua API, bao gồm mô hình và hạ tầng tính toán, có thể truy cập từ các tổ chức và doanh nghiệp (DN) trong nước.
Hơn nữa, yêu cầu đối với dịch vụ LLM cần đảm bảo cung cấp đầy đủ các API phổ biến gồm: API embedding: dùng để mã hóa văn bản tiếng Việt thành vector; API text completion dùng để hoàn thiện văn bản từ lời dẫn; API fine-tune dùng để DNN tự tinh chỉnh model mới trên model gốc với dữ liệu riêng của DN.
Bên cạnh những yêu cầu chung nêu trên, Bộ TT&TT cũng yêu cầu yêu riêng đối với Nền tảng Trợ lý ảo cho CBCC cần đáp ứng các yêu cầu cơ bản: Cho phép CCVC tự bổ sung dữ liệu riêng, cá nhân hoá trên trợ lý ảo thông qua nền tảng mà không cần tới nhân sự kĩ thuật; có kết nối dữ liệu đào tạo tới các cổng dữ liệu lớn của Chính phủ: cổng dữ liệu văn bản hành chính, cổng dữ liệu mua sắm công, cổng dữ liệu công dân…; có kết nối với dữ liệu đào tạo với máy tìm kiếm của DN trong nước để cung cấp thông tin từ Internet (có qua kiểm duyệt); có thể sử dụng trên website và mobile.
Trợ lý ảo cũng có hỗ trợ giao diện điều khiển bằng giọng nói tiếng Việt; có thể tích hợp dễ dàng vào website, Zalo OA…các kênh ứng dụng OTT phổ biến khác tại Việt Nam.
Cũng cụ thể yêu cầu cần đạt được như Nền tảng, đối với Bộ công cụ chuẩn bị dữ liệu huấn luyện Trợ lý ảo cần đảm bảo: Có thể nhập dữ liệu văn bản để huấn luyện; có thể bóc nội dung tiếng Việt từ file hình ảnh/file scan có chứa tiếng Việt; tự động bóc băng nội dung tiếng Việt từ file ghi âm cuộc họp, file video báo chí, truyền thông…để đưa vào huấn luyện; tích hợp tự động để lấy dữ liệu từ các bộ công cụ làm việc phổ biến tại Việt Nam.
Để triển khai hiệu quả những yêu cầu, nội dung nêu trên, Bộ TT&TT thành lập Tổ công tác triển khai việc nghiên cứu, thử nghiệm Phát triển Mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho CBCC tại Bộ TT&TT, đặt dưới sự chỉ đạo chung của Bộ trưởng Bộ TT&TT.
Đặc biệt, định kỳ hàng tuần, Tổ công tác của Bộ TT&TT và Tổ công tác của Viettel họp để trao đổi, thảo luận, giải quyết các khó khăn, vướng mắc, cập nhật tiến độ và thống nhất hành động. Định kỳ hàng tháng, Bộ trưởng Bộ TTTT chủ trì họp nghe báo cáo về tiến độ triển khai và giải quyết khó khăn, vướng mắc.
Nhiệm vu vụ này cũng yêu cầu Cục Chuyển đổi số quốc gia phối hợp với Trung tâm Không gian mạng Viettel, Tập đoàn Viettel xây dựng kế hoạch triển khai cụ thể, đồng thời, chủ trì, phối hợp với các đơn vị liên quan triển khai thực hiện các bước tiếp theo đúng quy định hiện hành. Còn lại, đối với các đơn vị khác trực thuộc Bộ có trách nhiệm phối hợp thực hiện xây dựng dữ liệu, triển khai sử dụng, đánh giá, nhận xét hoàn thiện sản phẩm.
Xu hướng số bắt buộc
Nhân nói về hướng đi phát triển trong lĩnh vực công nghệ số nói chung, trong đó có mô hình ngôn ngữ lớn Tiếng Việt và Trợ lý ảo cho cán bộ, công chức tại Bộ TT&TT thì đây chính là một hướng đi đổi mới, tích cực, tiên phong, có chủ động để làm chủ công nghệ số. Và trong hướng đi, thực hiện nhiệm vụ này, mục tiêu cao cả chính là hướng đến xây dựng một Việt Nam hùng cường, một xã hội số hiện đại, bền vững.
Và cũng trong hướng đi đúng đắn, thực hiện mục tiêu, nhiệm vụ này, thời gian qua qua thế giới đã chứng kiến sự phát triển, thành công của nhiều công cụ số cho Mô hình ngôn ngữ lớn và Trợ lý ảo sử dụng trí tuệ nhân tạo (AI) như Chat GPT, Microsoft 365 Copilot, Bing Image Creator hay Github Copilot X…
Ở góc nhìn đánh giá tích cực, từ khi ra đời, những sản phẩm, ứng dụng này không chỉ đơn thuần là công cụ giao tiếp diễn đạt, mà đã trở thành phương tiện chủ chốt để tạo ra sản phẩm vượt khỏi trí tưởng tượng của con người.
Và điển hình trong số những sản phẩm nêu trên, đơn cử ChatGPT đã tạo ra nhiều giá trị hữu ích, đáng kinh ngạc, có khả năng phân loại ngôn ngữ nhanh, đơn giản.
“ChatGPT có khả năng hiểu và nhận diện hình ảnh, thậm chí dịch một bản vẽ phác thảo giao diện website vẽ trên tờ giấy ăn thành một phần mềm tạo lập website tương ứng hoàn chỉnh”, ưu điểm không thể phủ nhận.
Vậy, những giá trị đó có được là nhờ có AI, và chỉ AI làm được. Do đó, AI chính là nơi và là môi trường lý tưởng để con người cống hiến chất xám, dấn thân vì sự thay đổi, tồn tại theo hướng tốt đẹp hơn, vì mục tiêu phục vụ tốt hơn cuộc sống con người.
Và trong kế hoạch triển khai nhiệm vụ phát triển công nghệ số, một lần nữa khẳng định việc sử dụng công nghệ AI cũng đang là một hướng đi thiết thực để phát triển các công nghệ số của Việt Nam và việc xây dựng, hình thành, sử dụng thành công Mô hình ngôn ngữ lớn Tiếng Việt và Trợ lý ảo sẽ là cần thiết trong việc thực hiện CĐS quốc gia.
Với vai trò là đơn vị dẫn dắt để công nghệ số Việt Nam đi lên, phát triển, trưởng thành thì những tiên phong ứng dụng công nghệ số, trong đó có việc thực hiện nhiệm vụ xây dựng, hình thành, sử dụng thành công Mô hình ngôn ngữ lớn Tiếng Việt và trợ lý ảo cho cán bộ, công chức tại Bộ TT&TT sẽ không chỉ giúp phục vụ hiệu vụ hiệu quả hoạt động của ngành TT&TT mà tiến xa hơn sẽ nhân rộng những thành công cho nhiều ngành, lĩnh vực khác… Tất cả vì mục tiêu đưa Việt Nam lọt top là quốc gia phát triển công nghệ số, sản phẩm số xếp thứ tự cao trên bản đồ số thế giới./.