​​Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound

NK| 27/07/2022 05:17
Theo dõi ICTVietnam trên

Trải qua 5 phiên bản, từ việc chỉ có thể chuyển hóa đơn thuần văn bản thành giọng nói, giọng máy AceSound của FPT.AI đã có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên.

Không phân biệt được giọng máy AceSound với người thật trong 10 giây đầu tiên

Sự bùng nổ của trí tuệ nhân tạo (AI) đã kích hoạt nhiều tính năng mới của công nghệ với sức mạnh đáng kinh ngạc, trong đó phải kể đến công nghệ tổng hợp giọng nói tự nhiên ứng dụng trong vận hành tổng đài. Trong đó, đáng chú ý là hàng loạt các giọng máy phát triển bằng công nghệ vượt trội AceSound đã được đội ngũ chuyên gia FPT.AI hoàn thiện và ra mắt.

Công nghệ AceSound được FPT.AI đầu tư và phát triển, nhằm đưa chất lượng giọng đọc máy text to speech lên một tầm cao mới. FPT.AI đón đầu xu thế ứng dụng giọng máy vào trợ lý ảo của các trung tâm tổng đài chăm sóc khách hàng, thực hiện nhiều nghiệp vụ sơ cấp trong lĩnh vực tài chính - ngân hàng, giúp các doanh nghiệp (DN) rút ngắn thời gian phục vụ khách hàng, giảm tải áp lực cho đội ngũ nhân sự, tối ưu quy trình vận hành, tiết kiệm chi phí hơn 17 tỷ đồng/tháng.

AaceSound vận dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Do đó, mô hình máy tính có thể học được hàng nghìn đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền. Để giọng máy hoàn thiện và có chất lượng tự nhiên như người thật, đội ngũ kỹ sư, các nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, liên tục cải tiến chất lượng âm học.

Theo đánh giá từ các đối tác đầu tiên được trải nghiệm giọng mới của FPT.AI, có thể nói, giọng máy AceSound mới của FPT.AI có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên. 

Ông Trần Thế Trung, Viện trưởng Viện Nghiên cứu công nghệ FPT, người được xem là kiến trúc sư trưởng của dự án phát triển phiên bản thứ năm giọng máy của FPT.AI kể một ví dụ để chứng minh cho chất lượng giọng máy. 

"Khi chúng tôi cung cấp giọng đọc này cho các tổng đài, dù đã bắt đầu bằng lời giới thiệu "đây là trợ lý ảo", nhưng chỉ sau vài ba câu trao đổi, khách hàng có người hỏi lại "Em là người, không phải máy hả?" Với người dành nhiều năm để nghiên cứu, cải tiến và tìm kiếm phiên bản giọng nói tự nhiên thì đây là ví dụ điển hình nhất chứng minh cho thành công của ông Trung và cộng sự.

Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound - Ảnh 1.

Ông Trần Thế Trung: Khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật.

Phiên bản thứ 5 và sự khác biệt so với công nghệ "text to speech" truyền thống

Kể lại quá trình nghiên cứu công nghệ này, ông Trung cho biết FPT đã phát triển tổng hợp giọng nói tiếng Việt từ 2013 và AceSound là thế hệ thứ 5 của sản phẩm này. Trung bình cứ khoảng 1-2 năm, đội ngũ phát triển lại cho ra mắt một phiên bản nâng cấp. Mỗi phiên bản sau lại cải tiến hơn phiên bản trước khiến người nghe cảm nhận được sự khác biệt rõ rệt. Để làm được điều đó, đội ngũ phát triển đã thực hiện hàng nghìn những thí nghiệm.

Đội ngũ FPT tham gia phát triển công nghệ tổng hợp giọng nói gồm 6 thành viên đã làm việc với công nghệ này được 9 năm, trong đó có 2 tiến sĩ từng tu nghiệp ở nước ngoài. "Chúng tôi cũng từng cộng tác với các chuyên gia trong lĩnh vực này ở các trường đại học và Viện nghiên cứu ở Việt Nam trên thế giới", ông Trung nói.

Thông tin từ FPT cho biết,  AceSound thay thế được công nghệ "text to speech" truyền thống trong tất cả các ứng dụng đang có. Ngoài ra, các ứng dụng đòi hỏi thay đổi linh hoạt cách đọc, đòi hỏi chất lượng giọng tự nhiên, truyền cảm như trong việc xây dựng các nội dung trực tuyến hay sách báo nói. Hiện, AceSound đã được cung cấp cho nhiều khách hàng, từ các tổng đài chăm sóc khách hàng, chatbot, trợ lý ảo, cho đến các đơn vị sản xuất nội dung số như video, podcast, sách nói, ebook. AceSound cũng được cung cấp cho bất cứ DN hay cá nhân nào có nhu cầu sử dụng với chi phí hợp lý.

"Khách hàng đang quen sử dụng phiên bản thứ tư, nhưng đến khi nghe phiên bản thứ năm, họ đã nhận ngay ra sự mượt mà trong cách đọc mới và lập tức ưa thích nó",  ông Trung nói.

So sánh với công nghệ "text to speech" truyền thống, ông Trung cho rằng, "text to speech" như tên gọi của nó, chuyển văn bản sang giọng nói. Còn AceSound cũng chuyển văn bản sang giọng nói, tuy nhiên, nó còn có thể chuyển những nội dung thể hiện nhiều thông tin sâu hơn về âm học, chứ không chỉ mỗi văn bản, sang giọng nói.

AceSound cho phép người dùng chủ động nhập vào các âm vị, để tạo ra các cách đọc riêng cho những thuật ngữ. Chưa kể, nó còn cho phép người dùng chủ động nhập thông tin về tốc độ đọc, ở từng đoạn, về âm lượng, ở từng đoạn, về cao độ, ở từng đoạn. Bằng cách phối hợp các thông tin này, nội dung giọng nói tổng hợp sẽ được thể hiện theo nhiều cách khác nhau cho cùng một nội dung văn bản, linh hoạt và đúng theo ý muốn của người dùng hơn, thay vì chỉ một kiểu mặc định.

AceSound cũng có những bộ thông số được tinh chỉnh sẵn từ trước, cho người dùng tái sử dụng, ví dụ để thể hiện giọng nói vui vẻ, hay giọng buồn bã, hay theo một cảm xúc nhất định, cho cùng một nội dung văn bản.

"Nhưng trên hết, điều quan trọng nhất của AceSound, so với các phiên bản text to speech trước đây của FPT, là ở chất giọng tự nhiên, đọc có nhịp điệu và truyền cảm, chất lượng âm thanh trong trẻo, tiệm cận chất giọng chất lượng cao của các phát thanh viên chuyên nghiệp", ông Trung bày tỏ.

Khó khăn nhất đến từ kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật

Theo ông Trung, nguồn dữ liệu cho AceSound được đội ngũ FPT lựa chọn dựa trên kiến thức đã tích lũy nhiều năm về âm học tiếng Việt, theo các tiêu chuẩn riêng của công ty. Trước đây, với các dữ liệu phục vụ text to speech, dữ liệu được lấy đa dạng từ nhiều nguồn, trong đó có nguồn tận dụng từ truyền hình FPT. Do tận dụng từ nhiều nguồn nên chất lượng không ổn định. Hiện tại, đã có tiêu chuẩn về dữ liệu nên chất lượng dữ liệu ổn định.

Ông Trung cho biết, trên thế giới nhiều công nghệ tương tự đã được phát triển bởi nhiều nhóm nghiên cứu lớn hoặc công ty lớn trong ngành AI. Hầu hết đều sử dụng những tiến bộ mới nhất trong các kỹ thuật học sâu (deep learning).

Khi được hỏi để phát triển từ giọng nói của máy như Google đến giọng nói tự nhiên có âm điệu, thì cần phải có những công nghệ nào, ông Trung cho biết, công nghệ của Google thường được áp dụng đại trà cho nhiều loại ngôn ngữ. "Để đạt chất lượng cao nhất, những hiểu biết chuyên sâu về âm học tiếng Việt là tối quan trọng để nâng tầm sản phẩm AceSound", ông Trung cho biết thêm.

Lý giải cho điều này, theo ông Trung, nếu chỉ dùng kiến thức chung về tổng hợp giọng nói trên thế giới sẽ chỉ đạt tới một ngưỡng nhất định. Để áp dụng cho tiếng Việt, đội ngũ phát triển phải đưa vào kiến thức ngôn ngữ tiếng Việt, thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… thậm chí thiết kế lại quy trình, chi tiết từng bước cho phù hợp với hạ tầng, dữ liệu để giọng máy AceSound trở nên mượt mà, sống động hơn. Bởi dữ liệu trên thế đang được làm cho tiếng Anh trong khi tiếng Việt lại có cách ngắt nghỉ nhấn nhá khác hoàn toàn.

Cũng theo ông Trung, khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật. Đội ngũ phải thực hiện nhiều nghiên cứu chi tiết về các đặc trưng giọng đọc tự nhiên và hàng trăm thí nghiệm tinh chỉnh chất lượng giọng để bám sát độ tự nhiên.

Tuy nhiên, đội ngũ phát triển cũng gặp những thuận lợi nhất định với sự hỗ trợ tốt về các nguồn lực cần thiết của công ty. Bên cạnh đó, cũng nhờ một phần may mắn là sau nhiều nỗ lực thử nghiệm thì cũng đã có được thử nghiệm thành công./.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
  • Bốn giải pháp trọng tâm để giải bài toán an toàn dữ liệu quốc gia
    Theo Thứ trưởng Bộ TT&TT Bùi Hoàng Phương, năm 2024 đánh dấu bước tiến vượt bậc của Việt Nam trong lĩnh vực an toàn thông tin. Tuy nhiên, còn rất nhiều thách thức cần vượt qua để đảm bảo an toàn dữ liệu quốc gia.
  • Việt Nam tăng cường hợp tác phát triển công nghệ số với Burundi và NIPA
    Trong khuôn khổ sự kiện Tuần lễ Số quốc tế 2024, Bộ trưởng Bộ Thông tin và Truyền thông Nguyễn Mạnh Hùng đã tiếp và làm việc với Bộ trưởng Bộ Truyền thông, Công nghệ Thông tin và Đa phương tiện Burundi Léocadie Ndacayisaba và ông Hur Sung Wook, Chủ tịch Cục Xúc tiến Công nghiệp CNTT quốc gia Hàn Quốc (NIPA).
  • Chính thức ra mắt Nền tảng hỗ trợ diễn tập thực chiến an toàn thông tin
    Nền tảng hướng tới nâng cao chất lượng và điều phối hiệu quả các hoạt động diễn tập trên toàn quốc thông qua nền tảng hỗ trợ diễn tập thực chiến an toàn thông tin.
  • Chuyển đổi số thành công không thể thiếu “niềm tin số”
    Muốn triển khai hiệu quả chiến lược số hóa quốc gia cần triển khai theo hướng tiếp cận từ trên xuống dưới và phải phù hợp với thực tế, đảm bảo có tầm nhìn rộng trong tương lai.
  • Việt Nam - Hàn Quốc đồng hành trong kỷ nguyên AI
    Thứ trưởng Bộ TT&TT Phan Tâm hy vọng, Việt Nam có thể học tập nhiều hơn từ Hàn Quốc về các bài học kinh nghiệm, cách làm hay để phát huy tối đa vai trò công nghệ số nói chung và trợ lý ảo nói riêng trong hoạt động của cơ quan nhà nước, thúc đẩy phát triển kinh tế, tạo lập xã hội số nhân văn và thu hẹp khoảng cách số.
  • Robot Delta hữu dụng trong nhiều ngành
    Nhờ vào thiết kế độc đáo và khả năng hoạt động với tốc độ và độ chính xác cao, robot Delta là một giải pháp tối ưu trong nhiều ngành công nghiệp hiện đại.
  • Cà Mau ứng dụng các phần mềm chuyển đổi số trong ngành nông nghiệp
    Ngành nông nghiệp tỉnh Cà Mau đã không ngừng triển khai các giải pháp chuyển đổi số thông qua việc sử dụng các phần mềm, xây dựng cơ sở dữ liệu chuyên ngành phục vụ quản lý, điều hành. Trong tương lai không xa, các phần mềm này sẽ hoàn thiện và bắt kịp xu hướng công nghệ để hỗ trợ người nông dân nhiều hơn trong việc tăng gia sản xuất.
  • Bảo vệ các hệ thống mạng trọng yếu là cấp thiết
    Song song với tiến trình chuyển đổi số, các chiến dịch tấn công mạng, gián điệp và khủng bố mạng nhằm vào hệ thống công nghệ thông tin (IT) và công nghệ vận hành (OT) trọng yếu ngày càng gia tăng, việc đảm bảo an ninh mạng trở thành ưu tiên hàng đầu của các quốc gia.
  • ‏OPPO Find X8 Series sẽ chính thức lên kệ ngày 7/12‏
    Ngày 21/11, OPPO chính thức ra mắt Find X8 Series‏‏ tại Việt Nam và sẽ lên kệ ngày 7/12 tới. Đây là lần đầu tiên người dùng Việt Nam được trải nghiệm dòng flagship cao cấp nhất của OPPO cùng lúc với toàn cầu. ‏
  • Chuyển đổi số từ thực tiễn Báo Hải Dương
    Báo Hải Dương có nhiều thuận lợi khi thực hiện chuyển đổi số. Đó là Ban Biên tập có quyết tâm cao. Đội ngũ cán bộ, phóng viên, nhân viên của báo nhanh nhạy với cái mới, ham học hỏi...
​​Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound
POWERED BY ONECMS - A PRODUCT OF NEKO