Nhiều chuyên gia cho rằng, giai đoạn 2022-2025 sẽ là quãng thời gian phát triển, tăng trưởng nóng của ngành công nghiệp AI nói chung và Voice AI nói riêng tại Việt Nam.
Ứng dụng mạnh mẽ trong nhiều lĩnh vực như Y tế, hành chính công...
Theo Chủ tịch FPT Trương Gia Bình, trong giai đoạn COVID-19, công nghệ đã mang một sứ mệnh mới, vì cuộc sống con người. Khi mà không một bệnh viện nào có thể điều trị được tất cả các trường hợp F0, F0 phải điều trị tại nhà và cũng không có đủ lực lượng y tế nào chăm sóc cho họ, đến lúc đó công nghệ AI đã đóng một vai trò mới, khi giúp nói chuyện với bệnh nhân để tìm hiểu họ đang ở trạng thái nào, phát hiện ra kịp thời bệnh chuyển nặng, cần phải chuyển vào bệnh viện và cứu được tính mạng con người. Cụ thể, FPT. AI đã thực hiện 2,6 triệu cuộc gọi, như trong đợt dịch cao điểm tháng 6 và 7/2021 tại Bắc Giang các trợ lý ảo đã tham gia hỗ trợ kiểm soát, sàng lọc và truy vết các ca nhiễm.
Hay tại tỉnh Bà Rịa - Vũng Tàu, để hạn chế tình trạng làm việc quá tải của các nhân viên y tế, tháng 12/2021, Sở TT&TT đã phối hợp với Tập đoàn FPT triển khai tổng đài AI tư vấn, hỗ trợ điều trị F0 tại nhà, góp sức cùng ngành y tế đẩy lùi dịch bệnh, bảo vệ sức khỏe người dân. Theo thống kê trên Hệ thống chỉ trong thời gian ngắn, từ ngày 15/12/2021 đến ngày 31/12/2021 các cuộc gọi ra để tư vấn, hỗ trợ chăm sóc F0 tại nhà là gần 20.000 trường hợp và tiếp nhận gọi vào là hơn 2.500 cuộc gọi.
Cũng trong giai đoạn dịch bệnh căng thẳng vào thời điểm tháng 5-6/2021, hệ thống tổng đài ảo đã được Vbee phối hợp với MobiFone triển khai tại các tỉnh như Hà Tĩnh, Nghệ An để hỏi thăm sức khỏe, cập nhật thông tin y tế cũng như truyền thông cài đặt ứng dụng truy vết cho người dân.
Không chỉ được ứng dụng để hỗ trợ y tế, tổng đài ảo, trợ lý ảo cũng là những công cụ đắc lực cho dịch vụ hành chính công. Tháng 12/2021, nền tảng trợ lý ảo Viettel Cyberbot được phát triển dựa trên công nghệ trí tuệ nhân tạo Viettel AI đã được bình chọn “5 sao” tại hạng mục “Giải pháp cho chính quyền số” tại Giải thưởng Smart City Award Việt Nam 2021, khi mà dịch vụ đã được ứng dụng mạnh mẽ tại các tỉnh như: Hậu Giang, Thái Bình, Sầm Sơn (Thanh Hóa),… giúp phục vụ hàng chục nghìn cuộc gọi giải đáp thắc mắc của công dân mỗi ngày.
Theo báo cáo từ đơn vị triển khai Viettel Cyberbot tại Thái Bình, tại cùng một thời điểm cán bộ tỉnh chỉ tiếp nhận được 3 cuộc gọi, nhưng khi triển khai callbot, số lượng cuộc gọi tiếp nhận đồng thời đạt 600 cuộc, gấp 20 lần so với năng lực trước đây. Còn tổng đài callbot Hậu Giang có khả năng hoạt động 24/24 giờ và đáp ứng đồng thời 6.000 cuộc gọi cùng một thời điểm.
Bên cạnh việc giải đáp thắc mắc của người dân, các cuộc gọi AI còn có thể được triển khai trong lĩnh vực tài chính, ngân hàng (cuộc gọi nhắc nợ, nhắc kỳ hạn thanh toán) với chất lượng tương đối hoàn thiện. Trong thời gian tới đây, callbot sẽ ngày càng được ứng dụng mạnh mẽ tại Việt Nam, cụ thể là trong lĩnh vực giao thông vận tải (tự động nhắc hạn đăng kiểm) hay bảo hiểm xã hội (nhắc kỳ hạn nộp tiền).
Ngoài ra, nền tảng chuyển thể giọng nói thành văn bản VAIS hiện đã được nhiều cơ quan Nhà nước (CQNN) ở Trung ương và địa phương sử dụng như Văn phòng Trung ương Đảng, Văn phòng Chính phủ, Văn phòng Quốc hội, Bộ TT&TT, UBND TP. Hà Nội, hơn 50 đơn vị báo chí, truyền hình để phục vụ gỡ băng bài phát biểu tại các kỳ họp, sự kiện.
Khó khăn đến từ việc đưa công nghệ Voice AI vào thị trường, giải bài toán thực tiễn
Chia sẻ về câu chuyện hình thành nên Giải pháp Chuyển văn bản thành giọng nói tiếng Việt Vbee, ông Hồ Minh Đức, CEO Vbee cho biết, bắt đầu từ hơn 12 năm trước, khi lĩnh vực xử lý, chuyển đổi ngôn ngữ tiếng Việt vẫn còn là một khái niệm tương đối mơ hồ với hầu hết người dùng, thậm chí cả với những doanh nghiệp (DN) lớn. Để rồi, sau hơn 10 năm nghiên cứu và phát triển, ông Đức cùng những người bạn chung ý chí đã đưa bài toán tập trung xử lý ngôn ngữ tiếng Việt thành startup Vbee như hiện nay.
Với việc đi lên từ một đề tài nghiên cứu về chuyển đổi văn bản thành giọng nói tiếng Việt có cảm xúc tại trường Đại học Bách Khoa Hà Nội, Vbee đã gặp nhiều khó khăn và thuận lợi giống như những đề tài ở khoa học nói riêng và startup khác tại Việt Nam nói chung. Cụ thể, theo ông Đức, thuận lợi lớn nhất là việc làm chủ công nghệ, khi mà Vbee có đội ngũ nghiên cứu thực thụ, có kinh nghiệm và đam mê về công nghệ đã nghiên cứu hơn 10 năm qua. Với quyết tâm “người Việt Nam, giải quyết các bài toán đặc thù của văn hóa Việt Nam và con người Việt Nam”, sản phẩm của Vbee đã và đang được người dùng đánh giá cao về chất lượng.
Còn khó khăn lớn nhất mà giải pháp gặp phải, đó là làm sao để công nghệ của Vbee đi vào thị trường, đi vào thực tiễn. Mặc dù mọi người đã nghe nói AI rất nhiều, nhưng áp dụng vào đâu, giải quyết vấn đề gì của người dùng, của thị trường thì không phải là điều dễ dàng, nhất là với một lĩnh vực hoàn toàn mới. Vì vậy, Vbee đã gặp nhiều khó khăn và mất thời gian, nguồn lực trong việc tìm ra thị trường ngách của mình, đào tạo khách hàng và từ đó đóng gói sản phẩm dựa trên công nghệ mà công ty sở hữu.
Nói về những điểm khác biệt của Vbee, theo ông Đức, đó là việc tập trung giải quyết vấn đề mà thị trường, DN đang cần ứng dụng công nghệ. Vì là một startup, Vbee phải làm tập trung hơn, quyết tâm hơn, đóng gói nhanh hơn và phối hợp cùng khách hàng để mang lại kết quả tốt hơn so với các đối thủ khác. “Bên cạnh đó, lợi thế tiên phong trên thị trường phần nào giúp chúng tôi tiếp cận khách hàng sớm hơn”, ông Đức nói.
Điểm kém hơn đến từ việc do là startup, Vbee không có đủ mạnh về thương hiệu, về nguồn lực để đào tạo khách hàng. Trong khi đó các DN lớn sẵn sàng cuộc chơi “khô máu” để có khách hàng bằng mọi cách.
Về những kết quả đã đạt được, sau gần 5 năm phát triển, Vbee không có các ứng dụng về chuyển văn bản thành giọng nói, mà còn hướng tới việc xây dựng nền tảng hội thoại thông minh (Conversational AI) - giúp giao tiếp người máy bằng ngôn ngữ tự nhiên như con người. Nền tảng này có thể áp dụng trong mọi lĩnh vực như Fintech, ngân hàng, thương mại điện tử, giáo dục, y tế, xe hơi, nhà thông minh, thành phố thông minh…
“Đến thời điểm hiện tại, chúng tôi tự tin là đơn vị lớn nhất cung cấp giải pháp tổng đài tự động nhân tạo cho các DN Fintech và Ngân hàng như Fe Credit, MoMo, Vietcredit, MAFC, Sacombank…”, ông Đức khẳng định.
Kế hoạch trong thời gian tới, Vbee tiếp tục hoàn thiện các công nghệ lõi trong nền tảng giao tiếp hội thoại thông minh, đóng gói các sản phẩm tự động hóa cho DN. Về mục tiêu xa hơn trong 5 năm nữa, Vbee đặt tham vọng sẽ trở thành đơn vị cung cấp giải pháp tự động hóa hội thoại nhân tạo lớn nhất thị trường cho Fintech ngân hàng, bệnh viện và thương mại điện tử.
Theo ông Nguyễn Trường Giang, Giám đốc sản phẩm Viettel AI Platform (Trung tâm Không gian mạng Viettel - VTCC), với mong muốn làm chủ, đi đầu về công nghệ AI liên quan tới xử lý tiếng nói tiếng Việt và ngôn ngữ tự nhiên tại Việt Nam, nền tảng Xử lý tiếng nói (Voice AI Platform) đã được các kỹ sư/chuyên gia của VTCC bắt đầu nghiên cứu từ năm 2016, trước khi chính thức cung cấp ra thị trường vào tháng 6/2019.
Chia sẻ về quá trình phát triển sản phẩm, ông Giang cho rằng, nếu như AI là một lĩnh vực khó thì công nghệ Voice AI còn khó khăn hơn, do đặc thù tiếng Việt là một loại ngôn ngữ khó, đa dạng về vùng miền cũng như ngữ nghĩa. Chính vì vậy, việc nghiên cứu và phát triển các công nghệ AI nói chung và Voice AI nói riêng đòi hỏi nguồn lực rất lớn cả về con người, thời gian, dữ liệu cũng như cơ sở hạ tầng.
“Đây cũng là lý do khiến chưa nhiều đơn vị, DN tại Việt Nam dám mạnh dạn tự chủ đầu tư nghiên cứu và phát triển các công nghệ AI, thay vì đó phần lớn tận dụng các thành quả/model công nghệ AI đã được thế giới phát triển và cung cấp”, ông Giang chia sẻ thêm.
Do VTCC là một đơn vị R&D được Tập đoàn Công nghiệp Viễn thông Quân đội Viettel tin tưởng giao trọng trách nghiên cứu và phát triển các công nghệ AI, trong đó bao gồm các công nghệ liên quan tới xử lý tiếng nói và ngôn ngữ tự nhiên tiếng Việt. Để hoàn thành được trọng trách khó khăn này, Tập đoàn Viettel đã đầu tư rất lớn cho VTCC, bao gồm cả cơ chế, nguồn lực (nhân lực, vật lực…), cùng với quyết tâm to lớn và khát vọng làm chủ công nghệ AI của toàn thể thành viên VTCC. Tới thời điểm hiện tại các công nghệ Voice AI của VTCC đã và đang có vị thế hàng đầu tại Việt Nam, thông qua các cuộc thi, giải thưởng lớn như VLSP 2021 - Association for Vietnamese Language and Speech Processing, Sao Khuê…
Cũng theo ông Giang, điểm khác biệt của công nghệ Voice AI được các kỹ sư/chuyên gia VTCC chủ động nghiên cứu, phát triển và đóng gói hoàn toàn, không phụ thuộc vào công nghệ của các bên thứ 3. Ngoài ra, các công nghệ AI của VTCC hướng tới tính nền tảng, được xây dựng trên dữ liệu/bài toán thực tế, đem lại tính ứng dụng cao, đặc biệt đa dạng trong các lĩnh vực đang được xã hội quan tâm và trong quá trình chuyển đổi số mạnh mẽ như giáo dục, y tế, kinh tế, tài chính, an ninh quốc phòng…
Giải pháp của VTCC có tính ứng dụng cao trong đa dạng các ngành nghề, lĩnh vực xã hội và dễ dàng tích hợp lên các sản phẩm/hệ thống và nền tảng của khách hàng như Web & Mobile Apps, nhúng lên các thiết bị thông minh (IoT, smart devices…)… Đến thời điểm hiện tại, nền tảng đã cung cấp: Công nghệ Text to Speech với 12 giọng đọc nhân tạo cả nam & nữ, chất lượng, độ tự nhiên cao bao gồm cả 3 vùng miền; công nghệ Speech to Text có khả năng nhận diện giọng nói tiếng Việt đa dạng vùng miền, độ chính xác nhận diện lên tới 95%; Công nghệ NLP.
“Việc Viettel AI tiếp tục dẫn đầu tại giải thưởng về Xử lý tiếng nói VLSP 2021 được tổ chức vào cuối tháng 12/2021 đã cho thấy công nghệ Text to Speech và Speech to Text của VTCC đều đang đứng đầu thị trường Việt Nam về chất lượng công nghệ”, ông Giang nhấn mạnh.
Phát triển AI đã khó, xây dựng Voice AI tiếng Việt còn khó khăn hơn gấp bội
Theo đánh giá của List25, tiếng Việt là một trong những ngôn ngữ khó học, khó phát âm nhất trên thế giới. Bởi lẽ đó, việc xây dựng nên những phần mềm, giải pháp chuyển đổi tiếng Việt vẫn được xem là một thử thách không nhỏ đối với ngay cả những tập đoàn hàng đầu thế giới như Google, Microsoft, hay Apple khi bước chân vào thị trường Việt Nam. Do đó, đại diện các DN đều khẳng định, việc xử lý ngôn ngữ tiếng Việt là công việc khó khăn nhất trong quá trình phát triển sản phẩm.
Lý giải cho điều này, ông Đức cho rằng, do “phong ba bão táp không bằng ngữ pháp Việt Nam”, nên việc nghiên cứu công nghệ để có thể đọc chính xác và xây dựng giọng nói có độ truyền cảm cao nhất như con người là một thách thức rất lớn cho đội ngũ phát triển nền tảng. Vì vậy, để đọc đúng, chính xác, cảm xúc, truyền cảm trong mọi tình huống là điều mà đội ngũ Vbee xác định phải không ngừng cải tiến.
“Nếu tiếng Việt dễ dàng thì giải pháp nước ngoài đã có thể đáp ứng được, nhất là khi ngôn ngữ và văn hóa người Việt hoàn toàn khác. Chúng ta phải giải quyết những vấn đề mà ngôn ngữ khác hoàn toàn không có”, ông Đức nói.
Vbee đã giải quyết bài toán này bằng tình yêu công nghệ, hơn 10 năm nghiên cứu về công nghệ tái tạo giọng nói nhân tạo tiếng Việt. Đội ngũ phát triển nghiên cứu kỹ về ngôn ngữ tiếng Việt và cơ sở dữ liệu của người Việt. Đây có thể nói là ưu thế và lợi thế để Vbee giải quyết được những khó khăn mà công nghệ nước ngoài chưa chạm tới hoặc chưa giải quyết được.
Còn theo ông Giang, trong quá trình phát triển Voice AI, ngoài việc xử lý ngôn ngữ tiếng Việt, đội ngũ phát triển còn gặp các vấn đề như từ đồng âm khác nghĩa, vốn từ địa phương vùng miền đa dạng… Để làm chủ công nghệ AI nói chung, công nghệ nhận diện và xử lý ngôn ngữ giọng nói tiếng Việt nói riêng, cần phải có 3 yếu tố chính: Thuật toán; Dữ liệu; Cơ sở hạ tầng. Các chuyên gia hàng đầu của VTCC đã nghiên cứu, áp dụng các công nghệ, thuật toán, xây dựng các mô hình học sâu (Deep learning) tối ưu.
Ngoài ra với cơ sở hạ tầng được đầu tư hàng đầu Việt Nam như những siêu máy tính A100, điều này đã giúp việc xây dựng và tối ưu các mô hình AI dựa trên nguồn dữ liệu đa dạng, được thực hiện liên tục, nhanh chóng đưa các thuật toán, mô hình mới vào huấn luyện tăng chất lượng công nghệ.
Khi được hỏi về những lo ngại khi các công ty lớn ở nước ngoài như Google, Facebook… sẽ tham gia vào thị trường này và đánh bại các công ty trong nước, giống như câu chuyện công cụ tìm kiếm tiếng Việt trước kia, ông Giang khẳng định luôn đánh giá cao việc các gã khổng lồ công nghệ trên thế giới đến với thị trường Việt Nam. Bởi vì, đây là cơ hội cũng như thách thức để các DN Việt luôn phải tối ưu, thay đổi để hoàn thiện công nghệ, giải pháp AI của mình.
Theo ông Giang, mỗi đơn vị, DN có những cách tiếp cận riêng trong vấn đề làm công nghệ, nhưng mục tiêu chung đều là muốn đem lại giá trị cho người dùng, xã hội. Với VTCC, do là một đơn vị trực thuộc Tập đoàn Viettel, đội ngũ phát triển luôn hướng tới mục tiêu xây dựng nền tảng AI của người Việt, cho người Việt. “Việc này đã được hiện thực hóa bởi các dịch vụ, công nghệ mà chúng tôi luôn cố gắng tối ưu đảm bảo vị thế đứng đầu thị trường, được cung cấp tới người dùng với chi phí cạnh tranh, gần như là miễn phí so với các đối thủ…”, ông Giang nhấn mạnh.
Còn theo ông Đức, do lĩnh vực công nghệ không có biên giới và thế giới phẳng, nên nếu các sản phẩm của Việt Nam không có được một điểm khác biệt quyết định so với các đối thủ nước ngoài thì trước sau “vết xe đổ” của ngày trước cũng sẽ lặp lại. “Vì vậy vấn đề của chúng tôi không chỉ là yếu tố công nghệ, mà phải giải quyết được vấn đề của người dùng, DN Việt Nam một cách nhanh hơn, rẻ hơn và hiệu quả hơn”, ông Đức chia sẻ thêm.
Năm 2022-2025 sẽ là giai đoạn tăng trưởng nóng của ngành công nghiệp AI tại Việt Nam
Đánh giá về tiềm năng của thị trường, ông Đức cho biết, giao tiếp tiếng nói chỉ là một phần trong nền tảng hội thoại thông minh. Trên thế giới, đã phát triển và tạo ra nhiều nền tảng như trợ lý ảo, tư vấn viên ảo, MC ảo… để có thể tự động hóa các nghiệp vụ của con người. Tương tự ở Việt Nam, ông Đức cho rằng, đây là thời điểm chín muồi để các công ty phát triển các ứng dụng tương tự.
“Các ứng dụng này được ra đời với mong muốn tự động hóa để giảm thiểu chi phí và tăng mức độ hài lòng về hành trình trải nghiệm của khách hàng. Do đó, các đơn vị chỉ đứng trước 2 lựa chọn, triển khai ngay hoặc không bao giờ vì đã hết cơ hội”, ông Đức bày tỏ.
Cùng quan điểm, theo ông Giang, dự báo của MarketsandMarkets cho thấy, thị trường AI trên thế giới được dự báo sẽ tăng trưởng từ 58,3 tỷ USD trong năm 2021 lên tới 309,6 tỷ USD vào năm 2026. Ở Việt Nam, năm 2021, Chính phủ đã ban hành Chiến lược quốc gia về AI đến năm 2030, với mục tiêu từng bước đưa Việt Nam trở thành một trung tâm đổi mới sáng tạo và AI nằm trong Top 4 của khu vực ASEAN và trong Top 50 của thế giới. Tuy nhiên với tốc độ phát triển cũng như nhu cầu ngày càng tăng của các DN, tổ chức và cá nhân trong nước, ông Giang đánh giá giai đoạn 2022 - 2025 sẽ là quãng thời gian phát triển, tăng trưởng nóng của ngành công nghiệp AI tại Việt Nam.
Về kiến nghị với cơ quan quản lý, ông Đức cho rằng, AI cũng là công nghệ, nhưng nó sẽ mở ra một đường lối riêng, nhất là trong bối cảnh các giọng máy, rô bôt máy, trợ lý ảo ngày càng giống con người. Qua đó, thế giới ảo rõ ràng đã hình thành. Vì vậy, ông Đức mong muốn, đầu tiên các quy định pháp lý phải rõ ràng cho lĩnh vực công nghệ nhất là tạo động lực và bảo vệ các DN trong nước, tránh trường hợp bảo hộ ngược như trước đây là DN Việt Nam thì bị quản lý, còn DN nước ngoài thì không.
Bên cạnh đó, các vấn đề khi AI ra đời, các cơ sở pháp lý cũng phải thay đổi theo. Ví dụ như với giọng nói nhân tạo thì có được bảo hộ không, có phải chịu trách nhiệm không, các lừa đảo qua giọng nói nhân tạo thì sẽ như thế nào… Chính vì vậy, cơ quan quản lý cũng phải cập nhật và thay đổi./.
(Bài đăng ấn phẩm in Tạp chí TT&TT số 5 tháng 5/2022)