Make in Vietnam

Zalo AI công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt

PV 14:45 14/11/2023

Tháng 11/2023, Zalo AI chính thức công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt (Vietnamese multi-task language understanding - VMLU). Qua đó có thêm công cụ đánh giá chất lượng đầu ra của các mô hình AI tiếng Việt.

VMLU do Zalo AI phối hợp với Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST) xây dựng. Đây là bộ tiêu chuẩn đánh giá tiếng Việt đa khía cạnh, đa cấp độ và đáp ứng đa dạng nhu cầu nhất trên thị trường hiện nay với 10.880 câu hỏi trắc nghiệm xoay quanh 58 chủ đề khác nhau.

anh-thumbnail-1.jpg
Việc công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt VMLU giúp có thêm công cụ đánh giá chất lượng đầu ra của các mô hình AI tiếng Việt.

Tại sao AI Việt Nam cần một bộ tiêu chuẩn đánh giá năng lực tiếng Việt hoàn chỉnh?

Sự phát triển bùng nổ của chat GPT đã tạo ra một cuộc đua mới: Generative AI (trí tuệ nhân tạo tạo sinh). Theo số liệu thống kê, kể từ thời điểm chat GPT được giới thiệu, trên thế giới hiện có khoảng 16.000 mô hình tương tư như chat GPT ra đời.

Việt Nam cũng không đứng ngoài xu thế đó khi có rất nhiều nhóm nghiên cứu với quy mô, tiềm lực khác nhau cũng đang muốn thử nghiệm với Generative AI sử dụng tiếng Việt. Điều này đã kéo theo nhu cầu về một bộ đánh giá năng lực tiếng Việt cho chính các mô hình AI này để đo lường mức độ nắm tri thức cũng như tư duy ngôn ngữ tiếng Việt.

Trên thị trường hiện nay, hầu hết các nhóm nghiên cứu ngôn ngữ lớn (LLM) ở Việt Nam đều phải tự xây dựng bộ công cụ đánh giá với chuẩn mực riêng cho mô hình của mình. Đây là những bộ đánh giá nội bộ, chưa được công khai ra thị trường.

Bộ đánh giá của Zalo AI hướng đến nhu cầu tổng quát, có thể làm tiêu chuẩn chung cho các mô hình LLM và được cung cấp ra cho cộng đồng AI. Điều này vừa giúp những nhóm nghiên cứu nhỏ có thể tiếp cận được bộ dữ liệu đánh giá toàn diện vừa để các bên có thể so sánh kết quả lẫn nhau. Từ đó, tạo ra động lực hoàn thiện hơn mô hình.

Tạo động lực cho AI Việt Nam gia nhập làn sóng Generative AI thế giới

Sự ra đời của VMLU đã tạo động lực cho các cá nhân, startup hay các nhóm nghiên cứu nhỏ trong việc phát triển ra các mô hình AI tiếng Việt mới. Điều này tạo điều kiện cho các nghiên cứu mới, đặt nền móng đo lường sự chính xác và nâng cấp kết quả của các mô hình cơ bản, giúp hoàn thiện quá trình phát triển các ứng dụng AI ngôn ngữ Việt, do chính người Việt tạo ra để phục vụ người Việt.

Đây cũng là một trong những yếu tố quan trọng thúc đẩy sự phát triển Generative AI Việt Nam đi nhanh hơn, bắt kịp với làn sóng phát triển AI trên thế giới.

Bộ tiêu chuẩn hướng đến 2 phần chính: dữ liệu (test dataset) và bộ công cụ tiêu chuẩn đánh giá, làm cơ sở để kiểm tra đối với các mô hình AI ứng dụng ngôn ngữ Việt.

Cụ thể, bộ dữ liệu bao gồm 10.880 câu hỏi trắc nghiệm xoay quanh 58 chủ đề khác nhau. Mỗi chủ đề có khoảng 200 câu hỏi và được phân bổ trên 4 lĩnh vực bao gồm: STEM, Khoa học xã hội, Khoa học nhân văn và một danh mục rộng “Mở rộng”.

Với khối dữ liệu này, VMLU có sự phân tầng độ khó với 4 cấp bậc: Tiểu học, Trung học cơ sở, Trung học phổ thông và Chuyên nghiệp -cho đại học và sau đại học. Từ đó, bộ công cụ giúp đánh giá hiệu quả năng lực ngôn ngữ tiếng Việt của các mô hình AI về cả kiến thức sơ đẳng lẫn giải quyết các vấn đề phức tạp.

Bên cạnh đó, để giúp các nhóm nghiên cứu dễ dàng đánh giá năng lực các mô hình AI tiếng Việt của mình, đội ngũ kỹ sư Zalo AI thiết kế kèm theo hướng dẫn để các nhóm có thể sử dụng một cách nhanh chóng và đơn giản.

423-202311141358091.jpg

Tiếp tục đóng góp cho cộng đồng AI Việt Nam

Bộ tiêu chuẩn VMLU ra đời chính là một sản phẩm được nghiên cứu nhằm hướng đến mục đích đóng góp và phát triển cộng đồng nghiên cứu AI Việt Nam nói riêng cũng như cộng đồng công nghệ thông tin nói chung, không thu phí bất kỳ người dùng, nhóm nghiên cứu hay doanh nghiệp nào.

Trước đó, Zalo AI đã thực hiện, triển khai và tổ chức hàng loạt các cuộc thi, chương trình cho cộng đồng AI Việt Nam như: Zalo AI Challenge, Zalo AI Hackathon, Zalo AI Summit…

TS. Châu Thành Đức, Trưởng bộ phận nghiên cứu Zalo AI - Giảng viên Trường Đại học Khoa học tự nhiên, Đại học Quốc gia TP Hồ Chí Minh khẳng định: “Zalo AI luôn hướng tới sự đóng góp cho cộng đồng AI Việt Nam, tạo động lực để AI Việt Nam phát triển. Từ đó kỳ vọng ngày càng có nhiều sản phẩm AI của người Việt, cho người Việt”./.

Bài liên quan
Nổi bật Tạp chí Thông tin & Truyền thông
  • Việt Nam - Malaysia nâng cấp quan hệ Đối tác chiến lược toàn diện
    Phát biểu tại họp báo, Tổng Bí thư Tô Lâm cho biết, Việt Nam-Malaysia tăng cường hợp tác trên các lĩnh vực mới (như kinh tế xanh, đổi mới sáng tạo, khoa học công nghệ, chuyển đổi số, năng lượng xanh...).
  • Chìa khóa giải quyết thách thức trong bảo vệ trẻ em trên không gian mạng
    Trẻ em - đối tượng dễ bị tổn thương nhất, đang phải đối mặt với nhiều nguy cơ. Đây không chỉ là bài toán của riêng Việt Nam mà còn là thách thức toàn cầu đòi hỏi sự chung tay hợp tác từ nhiều phía.
  • Việt Nam đang đối mặt 3 thách thức an toàn thông tin
    Các cuộc tấn công mạng hiện nay ngày càng tinh vi và phức tạp hơn, đặc biệt khi có sự hỗ trợ của trí tuệ nhân tạo. Tuy nhiên, việc kết hợp công nghệ này với trí tuệ của con người đã giúp phát hiện và phòng, chống tấn công mạng hiệu quả hơn.
  • Chuyển đổi số thành công không thể thiếu “niềm tin số”
    Muốn triển khai hiệu quả chiến lược số hóa quốc gia cần triển khai theo hướng tiếp cận từ trên xuống dưới và phải phù hợp với thực tế, đảm bảo có tầm nhìn rộng trong tương lai.
  • Việt Nam - Hàn Quốc đồng hành trong kỷ nguyên AI
    Thứ trưởng Bộ TT&TT Phan Tâm hy vọng, Việt Nam có thể học tập nhiều hơn từ Hàn Quốc về các bài học kinh nghiệm, cách làm hay để phát huy tối đa vai trò công nghệ số nói chung và trợ lý ảo nói riêng trong hoạt động của cơ quan nhà nước, thúc đẩy phát triển kinh tế, tạo lập xã hội số nhân văn và thu hẹp khoảng cách số.
Đừng bỏ lỡ
  • Bốn giải pháp trọng tâm để giải bài toán an toàn dữ liệu quốc gia
    Theo Thứ trưởng Bộ TT&TT Bùi Hoàng Phương, năm 2024 đánh dấu bước tiến vượt bậc của Việt Nam trong lĩnh vực an toàn thông tin. Tuy nhiên, còn rất nhiều thách thức cần vượt qua để đảm bảo an toàn dữ liệu quốc gia.
  • Việt Nam tăng cường hợp tác phát triển công nghệ số với Burundi và NIPA
    Trong khuôn khổ sự kiện Tuần lễ Số quốc tế 2024, Bộ trưởng Bộ Thông tin và Truyền thông Nguyễn Mạnh Hùng đã tiếp và làm việc với Bộ trưởng Bộ Truyền thông, Công nghệ Thông tin và Đa phương tiện Burundi Léocadie Ndacayisaba và ông Hur Sung Wook, Chủ tịch Cục Xúc tiến Công nghiệp CNTT quốc gia Hàn Quốc (NIPA).
  • Chính thức ra mắt Nền tảng hỗ trợ diễn tập thực chiến an toàn thông tin
    Nền tảng hướng tới nâng cao chất lượng và điều phối hiệu quả các hoạt động diễn tập trên toàn quốc thông qua nền tảng hỗ trợ diễn tập thực chiến an toàn thông tin.
  • Robot Delta hữu dụng trong nhiều ngành
    Nhờ vào thiết kế độc đáo và khả năng hoạt động với tốc độ và độ chính xác cao, robot Delta là một giải pháp tối ưu trong nhiều ngành công nghiệp hiện đại.
  • Cà Mau ứng dụng các phần mềm chuyển đổi số trong ngành nông nghiệp
    Ngành nông nghiệp tỉnh Cà Mau đã không ngừng triển khai các giải pháp chuyển đổi số thông qua việc sử dụng các phần mềm, xây dựng cơ sở dữ liệu chuyên ngành phục vụ quản lý, điều hành. Trong tương lai không xa, các phần mềm này sẽ hoàn thiện và bắt kịp xu hướng công nghệ để hỗ trợ người nông dân nhiều hơn trong việc tăng gia sản xuất.
  • Bảo vệ các hệ thống mạng trọng yếu là cấp thiết
    Song song với tiến trình chuyển đổi số, các chiến dịch tấn công mạng, gián điệp và khủng bố mạng nhằm vào hệ thống công nghệ thông tin (IT) và công nghệ vận hành (OT) trọng yếu ngày càng gia tăng, việc đảm bảo an ninh mạng trở thành ưu tiên hàng đầu của các quốc gia.
  • ‏OPPO Find X8 Series sẽ chính thức lên kệ ngày 7/12‏
    Ngày 21/11, OPPO chính thức ra mắt Find X8 Series‏‏ tại Việt Nam và sẽ lên kệ ngày 7/12 tới. Đây là lần đầu tiên người dùng Việt Nam được trải nghiệm dòng flagship cao cấp nhất của OPPO cùng lúc với toàn cầu. ‏
  • Chuyển đổi số từ thực tiễn Báo Hải Dương
    Báo Hải Dương có nhiều thuận lợi khi thực hiện chuyển đổi số. Đó là Ban Biên tập có quyết tâm cao. Đội ngũ cán bộ, phóng viên, nhân viên của báo nhanh nhạy với cái mới, ham học hỏi...
  • Đưa siêu ứng dụng "Công dân Thủ đô số - iHanoi" vào cuộc sống
    “Công dân Thủ đô số” - iHaNoi là kênh tương tác trực tuyến trên môi trường số giữa người dân, doanh nghiệp với các cấp chính quyền thành phố Hà Nội. Qua ứng dụng này, người dân và doanh nghiệp có thể phản ánh các vấn đề đời sống, từ đó giúp chính quyền tiếp nhận và giải quyết kịp thời.
  • Sự gia tăng của ứng dụng AI tạo sinh: Những rủi ro tiềm ẩn cho xã hội và con người
    AI tạo sinh là một trong những thành tựu công nghệ mới nhất của con người trong thập niên 20 của thế kỷ XXI. Cho đến nay, sự ứng dụng của AI tạo sinh đã tạo ra nhiều cuộc tranh luận quan trọng trong các nghiên cứu xã hội, đặc biệt là trong lĩnh vực triết học. AI tạo sinh đã thách thức nhiều khái niệm và định kiến của chúng ta về bản thân mình, đặc biệt là về cách chúng ta hiểu về tư duy và bản chất của tư duy con người.
Zalo AI công bố bộ tiêu chuẩn đánh giá năng lực tiếng Việt
POWERED BY ONECMS - A PRODUCT OF NEKO