​​Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound

NK| 27/07/2022 05:17
Theo dõi ICTVietnam trên

Trải qua 5 phiên bản, từ việc chỉ có thể chuyển hóa đơn thuần văn bản thành giọng nói, giọng máy AceSound của FPT.AI đã có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên.

Không phân biệt được giọng máy AceSound với người thật trong 10 giây đầu tiên

Sự bùng nổ của trí tuệ nhân tạo (AI) đã kích hoạt nhiều tính năng mới của công nghệ với sức mạnh đáng kinh ngạc, trong đó phải kể đến công nghệ tổng hợp giọng nói tự nhiên ứng dụng trong vận hành tổng đài. Trong đó, đáng chú ý là hàng loạt các giọng máy phát triển bằng công nghệ vượt trội AceSound đã được đội ngũ chuyên gia FPT.AI hoàn thiện và ra mắt.

Công nghệ AceSound được FPT.AI đầu tư và phát triển, nhằm đưa chất lượng giọng đọc máy text to speech lên một tầm cao mới. FPT.AI đón đầu xu thế ứng dụng giọng máy vào trợ lý ảo của các trung tâm tổng đài chăm sóc khách hàng, thực hiện nhiều nghiệp vụ sơ cấp trong lĩnh vực tài chính - ngân hàng, giúp các doanh nghiệp (DN) rút ngắn thời gian phục vụ khách hàng, giảm tải áp lực cho đội ngũ nhân sự, tối ưu quy trình vận hành, tiết kiệm chi phí hơn 17 tỷ đồng/tháng.

AaceSound vận dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Do đó, mô hình máy tính có thể học được hàng nghìn đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền. Để giọng máy hoàn thiện và có chất lượng tự nhiên như người thật, đội ngũ kỹ sư, các nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, liên tục cải tiến chất lượng âm học.

Theo đánh giá từ các đối tác đầu tiên được trải nghiệm giọng mới của FPT.AI, có thể nói, giọng máy AceSound mới của FPT.AI có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên. 

Ông Trần Thế Trung, Viện trưởng Viện Nghiên cứu công nghệ FPT, người được xem là kiến trúc sư trưởng của dự án phát triển phiên bản thứ năm giọng máy của FPT.AI kể một ví dụ để chứng minh cho chất lượng giọng máy. 

"Khi chúng tôi cung cấp giọng đọc này cho các tổng đài, dù đã bắt đầu bằng lời giới thiệu "đây là trợ lý ảo", nhưng chỉ sau vài ba câu trao đổi, khách hàng có người hỏi lại "Em là người, không phải máy hả?" Với người dành nhiều năm để nghiên cứu, cải tiến và tìm kiếm phiên bản giọng nói tự nhiên thì đây là ví dụ điển hình nhất chứng minh cho thành công của ông Trung và cộng sự.

Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound - Ảnh 1.

Ông Trần Thế Trung: Khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật.

Phiên bản thứ 5 và sự khác biệt so với công nghệ "text to speech" truyền thống

Kể lại quá trình nghiên cứu công nghệ này, ông Trung cho biết FPT đã phát triển tổng hợp giọng nói tiếng Việt từ 2013 và AceSound là thế hệ thứ 5 của sản phẩm này. Trung bình cứ khoảng 1-2 năm, đội ngũ phát triển lại cho ra mắt một phiên bản nâng cấp. Mỗi phiên bản sau lại cải tiến hơn phiên bản trước khiến người nghe cảm nhận được sự khác biệt rõ rệt. Để làm được điều đó, đội ngũ phát triển đã thực hiện hàng nghìn những thí nghiệm.

Đội ngũ FPT tham gia phát triển công nghệ tổng hợp giọng nói gồm 6 thành viên đã làm việc với công nghệ này được 9 năm, trong đó có 2 tiến sĩ từng tu nghiệp ở nước ngoài. "Chúng tôi cũng từng cộng tác với các chuyên gia trong lĩnh vực này ở các trường đại học và Viện nghiên cứu ở Việt Nam trên thế giới", ông Trung nói.

Thông tin từ FPT cho biết,  AceSound thay thế được công nghệ "text to speech" truyền thống trong tất cả các ứng dụng đang có. Ngoài ra, các ứng dụng đòi hỏi thay đổi linh hoạt cách đọc, đòi hỏi chất lượng giọng tự nhiên, truyền cảm như trong việc xây dựng các nội dung trực tuyến hay sách báo nói. Hiện, AceSound đã được cung cấp cho nhiều khách hàng, từ các tổng đài chăm sóc khách hàng, chatbot, trợ lý ảo, cho đến các đơn vị sản xuất nội dung số như video, podcast, sách nói, ebook. AceSound cũng được cung cấp cho bất cứ DN hay cá nhân nào có nhu cầu sử dụng với chi phí hợp lý.

"Khách hàng đang quen sử dụng phiên bản thứ tư, nhưng đến khi nghe phiên bản thứ năm, họ đã nhận ngay ra sự mượt mà trong cách đọc mới và lập tức ưa thích nó",  ông Trung nói.

So sánh với công nghệ "text to speech" truyền thống, ông Trung cho rằng, "text to speech" như tên gọi của nó, chuyển văn bản sang giọng nói. Còn AceSound cũng chuyển văn bản sang giọng nói, tuy nhiên, nó còn có thể chuyển những nội dung thể hiện nhiều thông tin sâu hơn về âm học, chứ không chỉ mỗi văn bản, sang giọng nói.

AceSound cho phép người dùng chủ động nhập vào các âm vị, để tạo ra các cách đọc riêng cho những thuật ngữ. Chưa kể, nó còn cho phép người dùng chủ động nhập thông tin về tốc độ đọc, ở từng đoạn, về âm lượng, ở từng đoạn, về cao độ, ở từng đoạn. Bằng cách phối hợp các thông tin này, nội dung giọng nói tổng hợp sẽ được thể hiện theo nhiều cách khác nhau cho cùng một nội dung văn bản, linh hoạt và đúng theo ý muốn của người dùng hơn, thay vì chỉ một kiểu mặc định.

AceSound cũng có những bộ thông số được tinh chỉnh sẵn từ trước, cho người dùng tái sử dụng, ví dụ để thể hiện giọng nói vui vẻ, hay giọng buồn bã, hay theo một cảm xúc nhất định, cho cùng một nội dung văn bản.

"Nhưng trên hết, điều quan trọng nhất của AceSound, so với các phiên bản text to speech trước đây của FPT, là ở chất giọng tự nhiên, đọc có nhịp điệu và truyền cảm, chất lượng âm thanh trong trẻo, tiệm cận chất giọng chất lượng cao của các phát thanh viên chuyên nghiệp", ông Trung bày tỏ.

Khó khăn nhất đến từ kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật

Theo ông Trung, nguồn dữ liệu cho AceSound được đội ngũ FPT lựa chọn dựa trên kiến thức đã tích lũy nhiều năm về âm học tiếng Việt, theo các tiêu chuẩn riêng của công ty. Trước đây, với các dữ liệu phục vụ text to speech, dữ liệu được lấy đa dạng từ nhiều nguồn, trong đó có nguồn tận dụng từ truyền hình FPT. Do tận dụng từ nhiều nguồn nên chất lượng không ổn định. Hiện tại, đã có tiêu chuẩn về dữ liệu nên chất lượng dữ liệu ổn định.

Ông Trung cho biết, trên thế giới nhiều công nghệ tương tự đã được phát triển bởi nhiều nhóm nghiên cứu lớn hoặc công ty lớn trong ngành AI. Hầu hết đều sử dụng những tiến bộ mới nhất trong các kỹ thuật học sâu (deep learning).

Khi được hỏi để phát triển từ giọng nói của máy như Google đến giọng nói tự nhiên có âm điệu, thì cần phải có những công nghệ nào, ông Trung cho biết, công nghệ của Google thường được áp dụng đại trà cho nhiều loại ngôn ngữ. "Để đạt chất lượng cao nhất, những hiểu biết chuyên sâu về âm học tiếng Việt là tối quan trọng để nâng tầm sản phẩm AceSound", ông Trung cho biết thêm.

Lý giải cho điều này, theo ông Trung, nếu chỉ dùng kiến thức chung về tổng hợp giọng nói trên thế giới sẽ chỉ đạt tới một ngưỡng nhất định. Để áp dụng cho tiếng Việt, đội ngũ phát triển phải đưa vào kiến thức ngôn ngữ tiếng Việt, thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… thậm chí thiết kế lại quy trình, chi tiết từng bước cho phù hợp với hạ tầng, dữ liệu để giọng máy AceSound trở nên mượt mà, sống động hơn. Bởi dữ liệu trên thế đang được làm cho tiếng Anh trong khi tiếng Việt lại có cách ngắt nghỉ nhấn nhá khác hoàn toàn.

Cũng theo ông Trung, khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật. Đội ngũ phải thực hiện nhiều nghiên cứu chi tiết về các đặc trưng giọng đọc tự nhiên và hàng trăm thí nghiệm tinh chỉnh chất lượng giọng để bám sát độ tự nhiên.

Tuy nhiên, đội ngũ phát triển cũng gặp những thuận lợi nhất định với sự hỗ trợ tốt về các nguồn lực cần thiết của công ty. Bên cạnh đó, cũng nhờ một phần may mắn là sau nhiều nỗ lực thử nghiệm thì cũng đã có được thử nghiệm thành công./.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
  • Xây dựng hạ tầng cho mạng 5G tương lai của Việt Nam
    Đông Nam Á là một trong những khu vực có tốc độ phát triển nhanh nhất trên thế giới. Dự kiến tới năm 2030, ASEAN (gồm 10 quốc gia Đông Nam Á) sẽ trở thành nền kinh tế lớn thứ tư toàn cầu. Phần lớn động lực thúc đẩy sự phát triển này đến từ sự vận động và tăng trưởng không ngừng của nền kinh tế số trong khu vực, với giá trị ước tính lên đến gần 1 nghìn tỉ đô-la vào năm 2030.
  • 5G và những thay đổi toàn diện trong xây dựng thành phố thông minh
    Với tốc độ cực cao, độ trễ cực thấp, băng thông rộng và kết nối mật độ cực lớn, 5G là hạ tầng cốt lõi hỗ trợ toàn diện cho sự đổi mới và phát triển của thành phố thông minh trên tất cả các lĩnh vực, tác động tích cực vào công tác xây dựng và quản lý thành phố, tạo ra một môi trường sống tiện nghi, bền vững và an toàn hơn bao giờ hết.
  • Vượt qua hơn 1.000 doanh nghiệp, Bưu điện Việt Nam đạt giải Thương hiệu Quốc gia 2024
    Đây là lần thứ 2 liên tiếp Bưu điện Việt Nam vinh dự nhận giải thưởng danh giá này bởi những thành tựu lớn trong lĩnh vực logistics, bưu chính chuyển phát tại Việt Nam và Quốc tế.
  • Cuộc đua trung tâm dữ liệu AI tại Đông Nam Á
    Trí tuệ nhân tạo (AI) đã trở thành một động lực chính thúc đẩy đổi mới công nghệ toàn cầu và Đông Nam Á đang ngày càng khẳng định vai trò của mình trong cuộc đua phát triển AI. Hàng loạt các hãng công nghệ và đám mây lớn đã thông báo kế hoạch xây dựng, vận hành trung tâm dữ liệu mới tại Đông Nam Á.
  • Mở rộng trông xe không dùng tiền mặt mang lại lợi ích "kép"
    Việc áp dụng hình thức thanh toán qua ứng dụng thu phí không dừng VETC và mã QR vào hoạt động thanh toán phí gửi xe không dùng tiền mặt không những góp phần từng bước hình thành hệ thống giao thông thông minh mà còn tăng cường công tác quản lý nhà nước, minh bạch trong công tác thu phí dịch vụ trông giữ xe.
  • 10 xu hướng định hình tương lai của quản lý giao dịch số
    Quản lý giao dịch số đang phát triển mạnh mẽ, được thúc đẩy bởi những tiến bộ công nghệ và nhu cầu ngày càng tăng về xử lý tài liệu an toàn, hiệu quả. Đây là công cụ quan trọng giúp doanh nghiệp giảm bớt thủ tục hành chính và tối ưu hóa quy trình xử lý tài liệu số.
  • Zalo giữ vững ngôi đầu nền tảng nhắn tin được yêu thích nhất
    Ngày 5/11, theo báo cáo “The Connected Consumer Q.III/2024” mới nhất do Decision Lab công bố, Zalo tiếp tục dẫn đầu các nền tảng nhắn tin tại Việt Nam về tỷ lệ sử dụng (renetration rate) và mức độ yêu thích (preference rate).
  • Triển vọng thị trường chữ ký số toàn cầu
    Thị trường chữ ký số toàn cầu đang có ​​sự tăng trưởng chưa từng có khi các doanh nghiệp và cá nhân ngày càng áp dụng các giải pháp số để xác thực tài liệu và giao dịch an toàn.
  • ĐMST mở xã hội mang lại cho 90% doanh nghiệp cơ hội tạo giá trị kinh doanh bền vững
    Theo bà Nguyễn Phương Linh, Viện trưởng Viện MSD, hơn 90% các doanh nghiệp cho rằng đổi mới sáng tạo (ĐMST) mở xã hội mang lại cho doanh nghiệp cơ hội tạo ra giá trị kinh doanh bền vững, tác động tích cực đến xã hội và môi trường.
  • ‏FPT đẩy mạnh phát triển giải pháp low-code tại thị trường Hàn Quốc‏
    ‏Mới đây, FPT vừa ký kết thỏa thuận hợp tác ba năm với OutSystems, chính thức trở thành đối tác phân phối và triển khai tại thị trường Hàn Quốc, đảm bảo thời gian ra mắt phần mềm của khách hàng được rút ngắn và tối ưu chi phí.
​​Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound
POWERED BY ONECMS - A PRODUCT OF NEKO