Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound

NK| 27/07/2022 05:17

Trải qua 5 phiên bản, từ việc chỉ có thể chuyển hóa đơn thuần văn bản thành giọng nói, giọng máy AceSound của FPT.AI đã có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên.

Không phân biệt được giọng máy AceSound với người thật trong 10 giây đầu tiên

Sự bùng nổ của trí tuệ nhân tạo (AI) đã kích hoạt nhiều tính năng mới của công nghệ với sức mạnh đáng kinh ngạc, trong đó phải kể đến công nghệ tổng hợp giọng nói tự nhiên ứng dụng trong vận hành tổng đài. Trong đó, đáng chú ý là hàng loạt các giọng máy phát triển bằng công nghệ vượt trội AceSound đã được đội ngũ chuyên gia FPT.AI hoàn thiện và ra mắt.

Công nghệ AceSound được FPT.AI đầu tư và phát triển, nhằm đưa chất lượng giọng đọc máy text to speech lên một tầm cao mới. FPT.AI đón đầu xu thế ứng dụng giọng máy vào trợ lý ảo của các trung tâm tổng đài chăm sóc khách hàng, thực hiện nhiều nghiệp vụ sơ cấp trong lĩnh vực tài chính - ngân hàng, giúp các doanh nghiệp (DN) rút ngắn thời gian phục vụ khách hàng, giảm tải áp lực cho đội ngũ nhân sự, tối ưu quy trình vận hành, tiết kiệm chi phí hơn 17 tỷ đồng/tháng.

AaceSound vận dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Do đó, mô hình máy tính có thể học được hàng nghìn đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền. Để giọng máy hoàn thiện và có chất lượng tự nhiên như người thật, đội ngũ kỹ sư, các nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, liên tục cải tiến chất lượng âm học.

Theo đánh giá từ các đối tác đầu tiên được trải nghiệm giọng mới của FPT.AI, có thể nói, giọng máy AceSound mới của FPT.AI có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên.

Ông Trần Thế Trung, Viện trưởng Viện Nghiên cứu công nghệ FPT, người được xem là kiến trúc sư trưởng của dự án phát triển phiên bản thứ năm giọng máy của FPT.AI kể một ví dụ để chứng minh cho chất lượng giọng máy.

"Khi chúng tôi cung cấp giọng đọc này cho các tổng đài, dù đã bắt đầu bằng lời giới thiệu "đây là trợ lý ảo", nhưng chỉ sau vài ba câu trao đổi, khách hàng có người hỏi lại "Em là người, không phải máy hả?" Với người dành nhiều năm để nghiên cứu, cải tiến và tìm kiếm phiên bản giọng nói tự nhiên thì đây là ví dụ điển hình nhất chứng minh cho thành công của ông Trung và cộng sự.

Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound - Ảnh 1. — Ông Trần Thế Trung: Khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật.

Phiên bản thứ 5 và sự khác biệt so với công nghệ "text to speech" truyền thống

Kể lại quá trình nghiên cứu công nghệ này, ông Trung cho biết FPT đã phát triển tổng hợp giọng nói tiếng Việt từ 2013 và AceSound là thế hệ thứ 5 của sản phẩm này. Trung bình cứ khoảng 1-2 năm, đội ngũ phát triển lại cho ra mắt một phiên bản nâng cấp. Mỗi phiên bản sau lại cải tiến hơn phiên bản trước khiến người nghe cảm nhận được sự khác biệt rõ rệt. Để làm được điều đó, đội ngũ phát triển đã thực hiện hàng nghìn những thí nghiệm.

Đội ngũ FPT tham gia phát triển công nghệ tổng hợp giọng nói gồm 6 thành viên đã làm việc với công nghệ này được 9 năm, trong đó có 2 tiến sĩ từng tu nghiệp ở nước ngoài. "Chúng tôi cũng từng cộng tác với các chuyên gia trong lĩnh vực này ở các trường đại học và Viện nghiên cứu ở Việt Nam trên thế giới", ông Trung nói.

Thông tin từ FPT cho biết, AceSound thay thế được công nghệ "text to speech" truyền thống trong tất cả các ứng dụng đang có. Ngoài ra, các ứng dụng đòi hỏi thay đổi linh hoạt cách đọc, đòi hỏi chất lượng giọng tự nhiên, truyền cảm như trong việc xây dựng các nội dung trực tuyến hay sách báo nói. Hiện, AceSound đã được cung cấp cho nhiều khách hàng, từ các tổng đài chăm sóc khách hàng, chatbot, trợ lý ảo, cho đến các đơn vị sản xuất nội dung số như video, podcast, sách nói, ebook. AceSound cũng được cung cấp cho bất cứ DN hay cá nhân nào có nhu cầu sử dụng với chi phí hợp lý.

"Khách hàng đang quen sử dụng phiên bản thứ tư, nhưng đến khi nghe phiên bản thứ năm, họ đã nhận ngay ra sự mượt mà trong cách đọc mới và lập tức ưa thích nó", ông Trung nói.

So sánh với công nghệ "text to speech" truyền thống, ông Trung cho rằng, "text to speech" như tên gọi của nó, chuyển văn bản sang giọng nói. Còn AceSound cũng chuyển văn bản sang giọng nói, tuy nhiên, nó còn có thể chuyển những nội dung thể hiện nhiều thông tin sâu hơn về âm học, chứ không chỉ mỗi văn bản, sang giọng nói.

AceSound cho phép người dùng chủ động nhập vào các âm vị, để tạo ra các cách đọc riêng cho những thuật ngữ. Chưa kể, nó còn cho phép người dùng chủ động nhập thông tin về tốc độ đọc, ở từng đoạn, về âm lượng, ở từng đoạn, về cao độ, ở từng đoạn. Bằng cách phối hợp các thông tin này, nội dung giọng nói tổng hợp sẽ được thể hiện theo nhiều cách khác nhau cho cùng một nội dung văn bản, linh hoạt và đúng theo ý muốn của người dùng hơn, thay vì chỉ một kiểu mặc định.

AceSound cũng có những bộ thông số được tinh chỉnh sẵn từ trước, cho người dùng tái sử dụng, ví dụ để thể hiện giọng nói vui vẻ, hay giọng buồn bã, hay theo một cảm xúc nhất định, cho cùng một nội dung văn bản.

"Nhưng trên hết, điều quan trọng nhất của AceSound, so với các phiên bản text to speech trước đây của FPT, là ở chất giọng tự nhiên, đọc có nhịp điệu và truyền cảm, chất lượng âm thanh trong trẻo, tiệm cận chất giọng chất lượng cao của các phát thanh viên chuyên nghiệp", ông Trung bày tỏ.

Khó khăn nhất đến từ kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật

Theo ông Trung, nguồn dữ liệu cho AceSound được đội ngũ FPT lựa chọn dựa trên kiến thức đã tích lũy nhiều năm về âm học tiếng Việt, theo các tiêu chuẩn riêng của công ty. Trước đây, với các dữ liệu phục vụ text to speech, dữ liệu được lấy đa dạng từ nhiều nguồn, trong đó có nguồn tận dụng từ truyền hình FPT. Do tận dụng từ nhiều nguồn nên chất lượng không ổn định. Hiện tại, đã có tiêu chuẩn về dữ liệu nên chất lượng dữ liệu ổn định.

Ông Trung cho biết, trên thế giới nhiều công nghệ tương tự đã được phát triển bởi nhiều nhóm nghiên cứu lớn hoặc công ty lớn trong ngành AI. Hầu hết đều sử dụng những tiến bộ mới nhất trong các kỹ thuật học sâu (deep learning).

Khi được hỏi để phát triển từ giọng nói của máy như Google đến giọng nói tự nhiên có âm điệu, thì cần phải có những công nghệ nào, ông Trung cho biết, công nghệ của Google thường được áp dụng đại trà cho nhiều loại ngôn ngữ. "Để đạt chất lượng cao nhất, những hiểu biết chuyên sâu về âm học tiếng Việt là tối quan trọng để nâng tầm sản phẩm AceSound", ông Trung cho biết thêm.

Lý giải cho điều này, theo ông Trung, nếu chỉ dùng kiến thức chung về tổng hợp giọng nói trên thế giới sẽ chỉ đạt tới một ngưỡng nhất định. Để áp dụng cho tiếng Việt, đội ngũ phát triển phải đưa vào kiến thức ngôn ngữ tiếng Việt, thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… thậm chí thiết kế lại quy trình, chi tiết từng bước cho phù hợp với hạ tầng, dữ liệu để giọng máy AceSound trở nên mượt mà, sống động hơn. Bởi dữ liệu trên thế đang được làm cho tiếng Anh trong khi tiếng Việt lại có cách ngắt nghỉ nhấn nhá khác hoàn toàn.

Cũng theo ông Trung, khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật. Đội ngũ phải thực hiện nhiều nghiên cứu chi tiết về các đặc trưng giọng đọc tự nhiên và hàng trăm thí nghiệm tinh chỉnh chất lượng giọng để bám sát độ tự nhiên.

Tuy nhiên, đội ngũ phát triển cũng gặp những thuận lợi nhất định với sự hỗ trợ tốt về các nguồn lực cần thiết của công ty. Bên cạnh đó, cũng nhờ một phần may mắn là sau nhiều nỗ lực thử nghiệm thì cũng đã có được thử nghiệm thành công./.

Đọc thêm Make in Vietnam

Phần mềm kiểm toán nội bộ đầu tiên của Việt Nam nhận giải thưởng Sao Khuê 2024

Phần mềm kiểm toán nội bộ đầu tiên của Việt Nam nhận giải thưởng Sao Khuê 2024

Kitano là giải pháp phần mềm đầu tiên tại Việt Nam hỗ trợ toàn diện các chức năng kiểm toán nội bộ theo Chuẩn mực Kiểm toán nội bộ quốc tế, được phát triển bởi Công ty Tinh Vân phối hợp cùng Protrain - công ty hàng đầu trong lĩnh vực tư vấn và đào tạo về kiểm toán nội bộ, quản lý rủi ro, và kiểm soát nội bộ.

Make in Vietnam
Hệ sinh thái số của FPT “gặt hái” lớn tại Sao Khuê 2024

Hệ sinh thái số của FPT “gặt hái” lớn tại Sao Khuê 2024

FPT được vinh danh ở cả 8 nhóm lĩnh vực và 3 hạng mục với 14 sản phẩm, giải pháp được vinh danh Sao Khuê 2024.

Make in Vietnam
Cảng Đồng Nai triển khai giải pháp "Make in Viet Nam" chuyển đổi số toàn diện quy trình khai thác cảng

Cảng Đồng Nai triển khai giải pháp "Make in Viet Nam" chuyển đổi số toàn diện quy trình khai thác cảng

Cảng Đồng Nai đóng vai trò quan trọng trong việc trung chuyển hàng hóa theo đường thủy về Khu vực Cái Mép (Bà Rịa - Vũng Tàu), TP. Hồ Chí Minh, tỉnh Bình Dương.

Make in Vietnam
Edupia: Sử dụng công nghệ để xoá nhoà khoảng cách về điều kiện học tập

Edupia: Sử dụng công nghệ để xoá nhoà khoảng cách về điều kiện học tập

Ra đời với sứ mệnh sử dụng công nghệ để xóa nhòa khoảng cách về điều kiện học tập, sau 4 năm, startup Edtech Edupia đã có 20 triệu người đăng ký cùng với 650.000 tài khoản trả phí. Dù vậy, theo ông Trần Đức Hùng, Founder kiêm CEO Edupia, kết quả này của công ty còn khiêm tốn, khi mà thị trường Việt Nam còn rất tiềm năng.

Make in Vietnam
Doanh nghiệp Việt được rộng cửa chào đón tại các cường quốc công nghệ

Doanh nghiệp Việt được rộng cửa chào đón tại các cường quốc công nghệ

Nhiều thị trường lớn đang rộng cửa chào đón doanh nghiệp (DN) công nghệ số Việt Nam sang đầu tư kinh doanh. Hiểu về thị trường sẽ là tiền đề quan trọng để DN có bước đi chắc chắn, tự tin ra thế giới.

Make in Vietnam
Doanh nghiệp chủ động mang sản phẩm, dịch vụ số "Make in Viet Nam" đi ra thế giới

Doanh nghiệp chủ động mang sản phẩm, dịch vụ số "Make in Viet Nam" đi ra thế giới

Việc định hướng, tìm giải pháp, hướng đi nhầm thúc đẩy, phát triển các doanh nghiệp (DN) công nghệ số của Việt Nam chính là một nhiệm vụ quan trọng, khi được làm tốt sẽ góp phần thúc đẩy nền kinh tế của Việt Nam ngày càng ổn định, bền vững.

Make in Vietnam

Nổi bật Tạp chí Thông tin & Truyền thông

Nhà mạng kinh doanh dịch vụ đám mây để tăng trưởng

Trong thời gian qua, các nhà mạng Việt Nam đã tập trung xây dựng các trung tâm dữ liệu (TTDL) mới và có định hướng phát triển, cho thuê dịch vụ đám mây.
Thứ trưởng Bộ TT&TT Nguyễn Thanh Lâm: Đọc sách là cách để chúng ta nuôi dưỡng tâm trí

Việc đọc là cách để chúng ta nuôi dưỡng tâm trí; mài giũa trí tuệ, mở rộng vốn từ, nâng cao kỹ năng tư duy của bản thân; đồng thời cũng chính là hành động nuôi dưỡng sự đồng cảm - nền tảng của một xã hội giàu lòng nhân ái.
Bộ TT&TT phát động phong trào đọc sách trong thanh niên

Bằng những việc làm thiết thực sẽ khơi dậy và phát triển mạnh mẽ phong trào đọc sách trong thanh niên và mọi tầng lớp nhân dân, tạo dựng nét đẹp văn hóa trong cộng đồng.
Khái lược những tư tưởng lớn – Bộ sách nhập môn, xây dựng nền tảng

Là sách nhập môn trình bày về từng chủ đề tương ứng, đủ tổng quát, cũng đủ chi tiết, dí dỏm và sống động với sơ đồ tóm tắt, hình minh họa thú vị, Khái lược những tư tưởng lớn là bộ sách sẽ giúp bạn củng cố nền tảng kiến thức chắc chắn về mọi lĩnh vực. Sách do Đông A Books mua bản quyền từ nhà xuất bản DK (Anh quốc).
Bia Trúc Bạch kiệt tác chinh phục đỉnh cao

Khám phá một kiệt tác, một di sản dẫn lối tinh hoa. Hoa Bia Saaz quý tộc vùng Zatec một kinh nghiệm bậc thầy tạo ra hương vị tinh túy bậc nhất đẳng cấp vượt thời gian, trải nghiệm đỉnh cao hoàn mỹ. Bia Trúc Bạch kiệt tác chinh phục đỉnh cao

Đừng bỏ lỡ

Sứ mệnh của xuất bản vẫn là sáng tạo, lưu trữ, tích lũy và truyền bá tri thức

Tối ngày 17/4, tại Văn Miếu - Quốc Tử Giám (Hà Nội), Bộ Thông tin và Truyền thông phối hợp với Ban Tuyên giáo Trung ương, Bộ Văn hóa, Thể thao và Du lịch, UBND TP Hà Nội và Hội Xuất bản Việt Nam tổ chức Lễ khai mạc Ngày Sách và Văn hóa đọc Việt Nam lần thứ Ba năm 2024.
VCA 2024 sẽ có thêm giải thưởng Nhà sáng tạo nội dung số truyền cảm hứng

VCA 2024 đã bổ sung thêm hạng mục thứ 8, giải thưởng Nhà sáng tạo nội dung số (NDS) truyền cảm hứng, để vinh danh doanh nghiệp (DN), tổ chức, cá nhân có đóng góp tích cực cho lĩnh vực sáng tạo NDS, được cộng đồng bình chọn thông qua Hệ thống bình chọn Online trên cổng thông tin chính thức của giải thưởng.
Ngành GTVT Cà Mau chuyển đổi số để tạo đột phá trong công tác quản lý

Xác định chuyển đổi số (CĐS) là khâu đột phá, giúp thay đổi căn bản phương thức quản lý, hoạt động, hiện đại hóa ngành giao thông vận tải (GTVT), góp phần tạo chuyển biến mạnh mẽ, đột phá trong việc thực hiện các mục tiêu, ngành GTVT Cà Mau đã, đang nỗ lực thực hiện mục tiêu CĐS.
Số vụ đánh cắp dữ liệu thông qua phần mềm độc hại tăng gấp 7 lần

Dựa trên những thông tin thu thập được từ các tập nhật ký được giao dịch trên thị trường ngầm, Kaspersky Digital Footprint Intelligence tiết lộ gần 10 triệu thiết bị đã bị đánh cắp dữ liệu thông qua các phần mềm độc hại trong năm 2023.
Nhiều sách mới và các hoạt động dành cho thiếu nhi nhân Ngày Sách và Văn hóa đọc Việt Nam lần 3 - 2024

Chào mừng Ngày Sách và Văn hóa đọc Việt Nam lần thứ 3 - 2024, Nhà xuất bản (NXB) Kim Đồng ra mắt nhiều tựa sách mới, nội dung và hình thức đặc sắc cùng những hoạt động giao lưu ra mắt, giới thiệu sách với công chúng.
Fintech tiên phong lan tỏa văn hóa đọc trên môi trường số

Ngày 17/4, trong lần đầu tiên đồng hành cùng “Ngày Sách và Văn hóa đọc Việt Nam”, MoMo mang đến chuỗi hoạt động đa dạng cho người yêu sách, các nhà xuất bản và nhà phát hành sách.
Cân bằng cơ hội và rủi ro của AI : Bài học từ Nhật Bản

Bằng cách tập trung vào quản lý rủi ro, tính linh hoạt và cân nhắc về mặt đạo đức, Nhật Bản đặt mục tiêu khai thác tiềm năng của AI đồng thời bảo vệ người dân và DN khỏi các rủi ro của công nghệ này.
Giấy phép bưu chính không phải là “phép màu” để doanh nghiệp có lãi

"Giấy phép bưu chính không phải là “phép màu”, “thuốc tiên” để bất kỳ doanh nghiệp nào có giấy phép là có thể kinh doanh có lãi được”, ông Đỗ Hữu Trí, Phó Chánh Thanh tra Bộ TT&TT nhấn mạnh trong trao đổi với hơn 130 doanh nghiệp bưu chính trên địa bàn Hà Nội tham dự hội nghị của Bộ TT&TT ngày 17/4/2024.
Cuốn sách về lịch sử loài người bán chạy nhất thế giới ra mắt ấn bản bỏ túi

Tháng 4 này, cuốn sách “Sapiens - lược sử loài người"- một trong những đầu sách bán chạy trên toàn cầu được xuất bản dưới dạng ấn phẩm bỏ túi để kỷ niệm 10 năm ra đời.
Trưng bày những ấn phẩm đặc biệt kỷ niệm 70 năm chiến thắng Điện Biên Phủ

Một số cuốn sách, bộ sách đặc sắc có giá trị to lớn về chiến thắng Điện Biên Phủ được Nhà xuất bản Chính trị quốc gia Sự thật trưng bày giới thiệu tại Điện Biên.

Xem thêm

​​Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound

Nâng tầm trợ lý ảo nhờ công nghệ giọng máy AceSound