Chuyển động ICT

Meta tiết lộ Voicebox AI tái tạo giọng nói bạn bè và người thân

Hoàng Linh • 09:10 21/06/2023

Bước đột phá công nghệ đã được Meta công bố thông qua một bài báo. Mặc dù sản phẩm chưa được phổ biến rộng rãi, nhưng bạn có thể nghe các bản trình diễn (demo).

Khi các chatbot AI và trình tạo nghệ thuật dường như trở nên phổ biến hơn theo từng phút, một số công ty nổi bật nhất trong lĩnh vực đang cố gắng duy trì vị thế bằng các công cụ của riêng họ. Meta vừa giới thiệu Voicebox, một trình tạo giọng nói thông minh nhân tạo, dựa trên văn bản mạnh mẽ đến mức Meta tuyên bố vượt trội hơn tất cả các model hiện có.

Voicebox đủ mạnh để tạo giọng nói dễ dàng như ChatGPT có thể tạo văn bản và Bing hoặc Dall-E 2 có thể tạo các hình ảnh. Mặc dù hệ thống chưa được phổ biến rộng rãi cho công chúng sử dụng, nhưng Meta đã cung cấp các bản trình diễn có thể truy cập được cho bất kỳ ai quan tâm đến việc tìm hiểu thêm về Voicebox.

Ví dụ, hệ thống này có thể được sử dụng trong chỉnh sửa âm thanh bởi người tạo và biên tập viên nội dung, vì khả năng tạo giọng nói của nó tạo ra các clip âm thanh rất tự nhiên. Nhưng Voicebox cũng đủ linh hoạt để lọc tiếng ồn từ các đoạn thoại một cách thông minh, chẳng hạn như lọc tiếng ồn và tái tạo giọng nói mà không bị lỡ nhịp.

Một trong những khả năng mà Voicebox thể hiện là có thể khớp với kiểu âm thanh của mẫu và tạo các clip chuyển văn bản thành giọng nói. Về cơ bản, người dùng khiếm thị có thể cung cấp cho Voicebox một đoạn âm thanh của một người bạn trong vòng hai giây và có thể đọc tin nhắn đã viết của người bạn đó bằng giọng nói của họ bằng AI.

Công cụ AI thế hệ mới có thể giải quyết các nhiệm vụ thông qua học theo ngữ cảnh, vì vậy, công cụ này có thể xử lý văn bản chưa từng được cung cấp trước đây và tạo chính xác ngữ cảnh cũng như cách diễn đạt giống như cách một người sẽ đọc văn bản đó bằng cách sử dụng kiến thức hiện có để tìm hiểu và giải quyết những thách thức mới.

Ý nghĩa đạo đức và pháp lý của công cụ đột phá này không dễ bị bác bỏ. Bất kỳ ai cũng có thể tạo các đoạn âm thanh bằng cách sử dụng bản ghi âm giọng nói của một người mà không được phép và yêu cầu họ nói bất cứ điều gì họ muốn.

Trong bài báo đã xuất bản, Meta tuyên bố một mô hình phân loại nhị phân có thể phân biệt giữa giọng nói trong thế giới thực và giọng nói mà Voicebox tạo ra.

Meta đã đào tạo Vociebox trên 60.000 giờ sách nói tiếng Anh và 50.000 giờ sách nói đa ngôn ngữ bằng 6 ngôn ngữ để có hiệu suất tối ưu. Quá trình đào tạo của Voicebox cho phép thực hiện chuyển văn bản thành giọng nói đa ngôn ngữ mà không cần đào tạo, khử nhiễu giọng nói, tạo kiểu, chỉnh sửa và tạo các mẫu giọng nói đa dạng.

Trong một bài báo được xuất bản bởi Meta AI, công ty tuyên bố có thể tạo ra các mẫu âm thanh đa dạng nhanh hơn 20 lần so với VALL-E của Microsoft và dễ hiểu hơn.

Ngoài việc nhanh hơn và mắc ít lỗi hơn so với các đối thủ cạnh tranh, Meta tuyên bố Vociebox có thể chuyển đổi văn bản viết thành lời nói bằng một hoặc nhiều ngôn ngữ mà không cần được đào tạo riêng cho từng ngôn ngữ.

So với mô hình tiên tiến trước đây, YourTTS, Voicebox đã giảm tỷ lệ lỗi từ trung bình từ 10,9% xuống 5,2%, cũng như tăng độ tương tự của âm thanh từ 0,335 lên 0,481./.