Không phân biệt được giọng máy AceSound với người thật trong 10 giây đầu tiên
Sự bùng nổ của trí tuệ nhân tạo (AI) đã kích hoạt nhiều tính năng mới của công nghệ với sức mạnh đáng kinh ngạc, trong đó phải kể đến công nghệ tổng hợp giọng nói tự nhiên ứng dụng trong vận hành tổng đài. Trong đó, đáng chú ý là hàng loạt các giọng máy phát triển bằng công nghệ vượt trội AceSound đã được đội ngũ chuyên gia FPT.AI hoàn thiện và ra mắt.
Công nghệ AceSound được FPT.AI đầu tư và phát triển, nhằm đưa chất lượng giọng đọc máy text to speech lên một tầm cao mới. FPT.AI đón đầu xu thế ứng dụng giọng máy vào trợ lý ảo của các trung tâm tổng đài chăm sóc khách hàng, thực hiện nhiều nghiệp vụ sơ cấp trong lĩnh vực tài chính - ngân hàng, giúp các doanh nghiệp (DN) rút ngắn thời gian phục vụ khách hàng, giảm tải áp lực cho đội ngũ nhân sự, tối ưu quy trình vận hành, tiết kiệm chi phí hơn 17 tỷ đồng/tháng.
AaceSound vận dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Do đó, mô hình máy tính có thể học được hàng nghìn đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền. Để giọng máy hoàn thiện và có chất lượng tự nhiên như người thật, đội ngũ kỹ sư, các nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, liên tục cải tiến chất lượng âm học.
Theo đánh giá từ các đối tác đầu tiên được trải nghiệm giọng mới của FPT.AI, có thể nói, giọng máy AceSound mới của FPT.AI có ngữ điệu, biểu cảm gần như tiệm cận với giọng người thật. Hầu hết người nghe không phân biệt được giọng máy AceSound với giọng người thật trong 10 giây đầu tiên.
Ông Trần Thế Trung, Viện trưởng Viện Nghiên cứu công nghệ FPT, người được xem là kiến trúc sư trưởng của dự án phát triển phiên bản thứ năm giọng máy của FPT.AI kể một ví dụ để chứng minh cho chất lượng giọng máy.
"Khi chúng tôi cung cấp giọng đọc này cho các tổng đài, dù đã bắt đầu bằng lời giới thiệu "đây là trợ lý ảo", nhưng chỉ sau vài ba câu trao đổi, khách hàng có người hỏi lại "Em là người, không phải máy hả?" Với người dành nhiều năm để nghiên cứu, cải tiến và tìm kiếm phiên bản giọng nói tự nhiên thì đây là ví dụ điển hình nhất chứng minh cho thành công của ông Trung và cộng sự.
Phiên bản thứ 5 và sự khác biệt so với công nghệ "text to speech" truyền thống
Kể lại quá trình nghiên cứu công nghệ này, ông Trung cho biết FPT đã phát triển tổng hợp giọng nói tiếng Việt từ 2013 và AceSound là thế hệ thứ 5 của sản phẩm này. Trung bình cứ khoảng 1-2 năm, đội ngũ phát triển lại cho ra mắt một phiên bản nâng cấp. Mỗi phiên bản sau lại cải tiến hơn phiên bản trước khiến người nghe cảm nhận được sự khác biệt rõ rệt. Để làm được điều đó, đội ngũ phát triển đã thực hiện hàng nghìn những thí nghiệm.
Đội ngũ FPT tham gia phát triển công nghệ tổng hợp giọng nói gồm 6 thành viên đã làm việc với công nghệ này được 9 năm, trong đó có 2 tiến sĩ từng tu nghiệp ở nước ngoài. "Chúng tôi cũng từng cộng tác với các chuyên gia trong lĩnh vực này ở các trường đại học và Viện nghiên cứu ở Việt Nam trên thế giới", ông Trung nói.
Thông tin từ FPT cho biết, AceSound thay thế được công nghệ "text to speech" truyền thống trong tất cả các ứng dụng đang có. Ngoài ra, các ứng dụng đòi hỏi thay đổi linh hoạt cách đọc, đòi hỏi chất lượng giọng tự nhiên, truyền cảm như trong việc xây dựng các nội dung trực tuyến hay sách báo nói. Hiện, AceSound đã được cung cấp cho nhiều khách hàng, từ các tổng đài chăm sóc khách hàng, chatbot, trợ lý ảo, cho đến các đơn vị sản xuất nội dung số như video, podcast, sách nói, ebook. AceSound cũng được cung cấp cho bất cứ DN hay cá nhân nào có nhu cầu sử dụng với chi phí hợp lý.
"Khách hàng đang quen sử dụng phiên bản thứ tư, nhưng đến khi nghe phiên bản thứ năm, họ đã nhận ngay ra sự mượt mà trong cách đọc mới và lập tức ưa thích nó", ông Trung nói.
So sánh với công nghệ "text to speech" truyền thống, ông Trung cho rằng, "text to speech" như tên gọi của nó, chuyển văn bản sang giọng nói. Còn AceSound cũng chuyển văn bản sang giọng nói, tuy nhiên, nó còn có thể chuyển những nội dung thể hiện nhiều thông tin sâu hơn về âm học, chứ không chỉ mỗi văn bản, sang giọng nói.
AceSound cho phép người dùng chủ động nhập vào các âm vị, để tạo ra các cách đọc riêng cho những thuật ngữ. Chưa kể, nó còn cho phép người dùng chủ động nhập thông tin về tốc độ đọc, ở từng đoạn, về âm lượng, ở từng đoạn, về cao độ, ở từng đoạn. Bằng cách phối hợp các thông tin này, nội dung giọng nói tổng hợp sẽ được thể hiện theo nhiều cách khác nhau cho cùng một nội dung văn bản, linh hoạt và đúng theo ý muốn của người dùng hơn, thay vì chỉ một kiểu mặc định.
AceSound cũng có những bộ thông số được tinh chỉnh sẵn từ trước, cho người dùng tái sử dụng, ví dụ để thể hiện giọng nói vui vẻ, hay giọng buồn bã, hay theo một cảm xúc nhất định, cho cùng một nội dung văn bản.
"Nhưng trên hết, điều quan trọng nhất của AceSound, so với các phiên bản text to speech trước đây của FPT, là ở chất giọng tự nhiên, đọc có nhịp điệu và truyền cảm, chất lượng âm thanh trong trẻo, tiệm cận chất giọng chất lượng cao của các phát thanh viên chuyên nghiệp", ông Trung bày tỏ.
Khó khăn nhất đến từ kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật
Theo ông Trung, nguồn dữ liệu cho AceSound được đội ngũ FPT lựa chọn dựa trên kiến thức đã tích lũy nhiều năm về âm học tiếng Việt, theo các tiêu chuẩn riêng của công ty. Trước đây, với các dữ liệu phục vụ text to speech, dữ liệu được lấy đa dạng từ nhiều nguồn, trong đó có nguồn tận dụng từ truyền hình FPT. Do tận dụng từ nhiều nguồn nên chất lượng không ổn định. Hiện tại, đã có tiêu chuẩn về dữ liệu nên chất lượng dữ liệu ổn định.
Ông Trung cho biết, trên thế giới nhiều công nghệ tương tự đã được phát triển bởi nhiều nhóm nghiên cứu lớn hoặc công ty lớn trong ngành AI. Hầu hết đều sử dụng những tiến bộ mới nhất trong các kỹ thuật học sâu (deep learning).
Khi được hỏi để phát triển từ giọng nói của máy như Google đến giọng nói tự nhiên có âm điệu, thì cần phải có những công nghệ nào, ông Trung cho biết, công nghệ của Google thường được áp dụng đại trà cho nhiều loại ngôn ngữ. "Để đạt chất lượng cao nhất, những hiểu biết chuyên sâu về âm học tiếng Việt là tối quan trọng để nâng tầm sản phẩm AceSound", ông Trung cho biết thêm.
Lý giải cho điều này, theo ông Trung, nếu chỉ dùng kiến thức chung về tổng hợp giọng nói trên thế giới sẽ chỉ đạt tới một ngưỡng nhất định. Để áp dụng cho tiếng Việt, đội ngũ phát triển phải đưa vào kiến thức ngôn ngữ tiếng Việt, thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… thậm chí thiết kế lại quy trình, chi tiết từng bước cho phù hợp với hạ tầng, dữ liệu để giọng máy AceSound trở nên mượt mà, sống động hơn. Bởi dữ liệu trên thế đang được làm cho tiếng Anh trong khi tiếng Việt lại có cách ngắt nghỉ nhấn nhá khác hoàn toàn.
Cũng theo ông Trung, khó khăn khi xây dựng AceSound chủ yếu nằm ở các kỹ thuật xử lý âm thanh để giọng nói tự nhiên như người thật. Đội ngũ phải thực hiện nhiều nghiên cứu chi tiết về các đặc trưng giọng đọc tự nhiên và hàng trăm thí nghiệm tinh chỉnh chất lượng giọng để bám sát độ tự nhiên.
Tuy nhiên, đội ngũ phát triển cũng gặp những thuận lợi nhất định với sự hỗ trợ tốt về các nguồn lực cần thiết của công ty. Bên cạnh đó, cũng nhờ một phần may mắn là sau nhiều nỗ lực thử nghiệm thì cũng đã có được thử nghiệm thành công./.