Chủ động làm chủ công nghệ, Viettel AI dẫn đầu tại VLSP 2023
Việc chủ động nghiên cứu và làm chủ công nghệ về xử lý tiếng nói tiếng Việt từ sớm đã giúp Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel (Viettel AI) chiến thắng thuyết phục tại cuộc thi VLSP 2023 tại cả 2 hạng mục: Nhận dạng tiếng nói và nhận dạng cảm xúc tiếng nói và Dịch máy Việt – Lào.
Cuộc thi Vietnamese Language and Speech Processing (VLSP) thuộc khuôn khổ hội thảo quốc tế thường niên về Xử lý ngôn ngữ và Tiếng nói tiếng Việt do câu lạc bộ VLSP, chi hội của Hội Tin học Việt Nam tổ chức. VLSP 2023 tổ chức 10 cuộc thi về xử lý tiếng nói và xử lý văn bản, quy tụ các nhà nghiên cứu, chuyên gia và đơn vị phát triển công nghệ hàng đầu.
Dù đây đã là lần thứ 4 Viettel AI tham gia cuộc thi và đã có 3 lần chiến thắng trước đó, nhưng các kỹ sư Viettel vẫn gặp không ít khó khăn bởi những thay đổi trong cơ cấu hạng mục cuộc thi. Cụ thể, so với năm ngoái, hạng mục Nhận dạng tiếng nói và Nhận dạng cảm xúc năm nay được gộp chung thành một hạng mục. Các đội thi phải giải quyết cùng lúc hai bài toán để đảm bảo nhận dạng được cả văn bản và cảm xúc của câu nói, khối lượng công việc và độ khó đều tăng lên gấp đôi.
Tận dụng từng dữ liệu dù chất lượng thấp hay cao
Không chỉ thay đổi về cơ cấu hạng mục, đề thi năm nay còn tập trung vào hướng xây dựng mô hình từ đầu với điều kiện dữ liệu hạn chế, gồm các dữ liệu thô, chưa được gắn nhãn và chất lượng thấp. Tổng cộng, đề thi cung cấp bốn nhóm dữ liệu với chất lượng và hình thức khác nhau. Có dữ liệu chỉ gồm âm thanh không nhãn, có dữ liệu chỉ gồm âm thanh và văn bản, có dữ liệu gồm cảm xúc và âm thanh, chất lượng cao, nhãn chuẩn, và có bộ dữ liệu gồm cảm xúc và âm thanh, chất lượng thấp. Mỗi bộ dữ liệu được xác định rõ phục vụ theo từng mục đích và hạng mục thi, tổng số hơn 300 giờ trên tất cả các bộ dữ liệu. Đây là con số khá khiêm tốn nếu so với các bộ dữ liệu chuẩn để huấn luyện Nhận dạng tiếng nói, thông thường cần lên tới 1.000-2.000 giờ hoặc hơn.
Mỗi đội thi chỉ có chưa đầy 2 tháng để làm và nộp bài, nhưng trên thực tế, thời gian thực sự để dành cho nghiên cứu giải pháp ít hơn rất nhiều vì thiếu nguồn lực. “Năm nay, Viettel AI dành rất nhiều nguồn lực về hạ tầng tính toán để nghiên cứu công nghệ mới cũng như phát triển sản phẩm, trong khi Nhận dạng tiếng nói là một công nghệ yêu cầu tài nguyên phần cứng rất lớn.” anh Đặng Đình Sơn, Kỹ sư Trí tuệ nhân tạo, Khối Nền tảng Trợ lý ảo, Viettel AI chia sẻ.
Trước điều kiện dữ liệu với khối lượng và chất lượng đều thấp, nhóm nghiên cứu ngay lập tức xác định quan điểm “phải tận dụng tất cả các dữ liệu dù chất lượng thấp hay cao”. Để làm được điều này, cần xây dựng được chu trình huấn luyện xử lý toàn bộ dữ liệu cũng như chỉ một mô hình giải quyết được nhiều bài toán khác nhau thay vì nhiều mô hình.
Thành quả từ việc tiên phong làm chủ công nghệ
Trong bối cảnh vừa thiếu dữ liệu, vừa thiếu tài nguyên, nhóm nghiên cứu quyết định xây dựng một quy trình xử lý đơn giản, không đồ sộ nhưng quan trọng là được tinh chỉnh từng chi tiết nhỏ nhất. Các kỹ sư Viettel AI tìm hiểu kỹ lưỡng các nghiên cứu mới nhất từ các hội nghị và tạp chí hàng đầu trên toàn thế giới để tìm ra hướng tiếp cận. Kết hợp với những phương pháp xử lý dữ liệu để huấn luyện mô hình đã có hiệu quả, nhóm nghiên cứu xây dựng một chu trình huấn luyện giúp xử lý toàn bộ các dữ liệu đang có. Chu trình gồm 3 bước: Xây dựng mô hình tiền huấn luyện (pretraining) để mô tả đặc trưng giọng nói mà không cần nhãn, tinh chỉnh từ mô hình tiền huấn luyện cho hai bài toán nhận dạng giọng nói và nhận dạng cảm xúc, và suy luận.
“May mắn là các kinh nghiệm từ việc giải quyết các bài toán thiếu dữ liệu trong quá trình phát triển, triển khai sản phẩm trước đây cũng đóng góp không nhỏ giúp đội thi tìm ra được phương pháp quyết định. Ngược lại, các kiến thức, kết quả có được từ bài thi cũng có tiềm năng áp dụng ngay cho các sản phẩm của Viettel AI, nên quá trình vừa làm việc vừa làm bài thi diễn ra khá thuận lợi”, anh Bùi Tiến Đạt, kỹ sư Khối Nền tảng Trợ lý ảo, Viettel AI chia sẻ.
Kết quả, Viettel AI không chỉ giành giải Nhất ở hạng mục Nhận dạng tiếng nói và nhận dạng cảm xúc tiếng nói mà còn đạt được điểm số ấn tượng là 89,18% (Các đội tiếp theo lần lượt là 83,40% và 78,45%). Lý giải về việc tại sao đạt kết quả vượt trội về độ chính xác, anh Sơn cho biết yếu tố then chốt nằm ở mô hình xử lý tiếng nói dành riêng cho tiếng Việt mà Viettel AI đã phát triển từ lâu. “Thay vì sử dụng mô hình, hướng dẫn từ các kết quả nghiên cứu có sẵn, Viettel AI lựa chọn xây dựng và tự phát triển một mô hình riêng dành cho xử lý tiếng nói tiếng Việt. Mô hình này liên tục được cập nhật, tối ưu và càng ngày càng trở nên hiệu quả”.
Không chỉ dừng lại ở khuôn khổ cuộc thi, giải pháp này của Viettel AI sẽ là tiền đề nâng cấp các sản phẩm tổng đài ảo, trợ lý ảo Viettel, giúp nhận dạng cảm xúc của khách hàng chính xác hơn trong cuộc hội thoại, từ đó đưa ra những phản hồi hay lựa chọn sắc thái câu nói phù hợp. Như vậy, các cuộc hội thoại giữa con người và AI sẽ trở nên tự nhiên hơn, cải thiện trải nghiệm người dùng. Nhiều ứng dụng mới trong việc chăm sóc khách hàng cũng được mở ra như xây dựng hệ thống tự động nhận diện các cuộc gọi phàn nàn, khiếu nại của khách hàng lên tổng đài nhằm xử lý kịp thời hay để khai thác thông tin.
Anh Đạt chia sẻ: “Cả đội thi rất vui và tự hào khi đạt được điểm số cao, vì đây là thành quả đóng góp và nỗ lực chung của cả nhóm trong suốt thời gian hoàn thành bài thi. Tuy nhiên, mọi người vẫn còn một chút tiếc nuối khi chưa đủ thời gian để phát triển tối đa phương pháp nghiên cứu.” Không chỉ dừng lại ở cuộc thi, Viettel AI sẽ tiếp tục phát triển công nghệ, không ngừng nâng cấp sản phẩm để tăng mức độ chính xác, nâng cao trải nghiệm người dùng và hiệu quả của sản phẩm./.