Chuyển động ICT

Meta tiết lộ Voicebox AI tái tạo giọng nói bạn bè và người thân

Hoàng Linh 09:10 21/06/2023

Bước đột phá công nghệ đã được Meta công bố thông qua một bài báo. Mặc dù sản phẩm chưa được phổ biến rộng rãi, nhưng bạn có thể nghe các bản trình diễn (demo).

Khi các chatbot AI và trình tạo nghệ thuật dường như trở nên phổ biến hơn theo từng phút, một số công ty nổi bật nhất trong lĩnh vực đang cố gắng duy trì vị thế bằng các công cụ của riêng họ. Meta vừa giới thiệu Voicebox, một trình tạo giọng nói thông minh nhân tạo, dựa trên văn bản mạnh mẽ đến mức Meta tuyên bố vượt trội hơn tất cả các model hiện có.

voice-box.png
Ảnh: Getty Images

Voicebox đủ mạnh để tạo giọng nói dễ dàng như ChatGPT có thể tạo văn bản và Bing hoặc Dall-E 2 có thể tạo các hình ảnh. Mặc dù hệ thống chưa được phổ biến rộng rãi cho công chúng sử dụng, nhưng Meta đã cung cấp các bản trình diễn có thể truy cập được cho bất kỳ ai quan tâm đến việc tìm hiểu thêm về Voicebox.

Ví dụ, hệ thống này có thể được sử dụng trong chỉnh sửa âm thanh bởi người tạo và biên tập viên nội dung, vì khả năng tạo giọng nói của nó tạo ra các clip âm thanh rất tự nhiên. Nhưng Voicebox cũng đủ linh hoạt để lọc tiếng ồn từ các đoạn thoại một cách thông minh, chẳng hạn như lọc tiếng ồn và tái tạo giọng nói mà không bị lỡ nhịp.

Một trong những khả năng mà Voicebox thể hiện là có thể khớp với kiểu âm thanh của mẫu và tạo các clip chuyển văn bản thành giọng nói. Về cơ bản, người dùng khiếm thị có thể cung cấp cho Voicebox một đoạn âm thanh của một người bạn trong vòng hai giây và có thể đọc tin nhắn đã viết của người bạn đó bằng giọng nói của họ bằng AI.

Công cụ AI thế hệ mới có thể giải quyết các nhiệm vụ thông qua học theo ngữ cảnh, vì vậy, công cụ này có thể xử lý văn bản chưa từng được cung cấp trước đây và tạo chính xác ngữ cảnh cũng như cách diễn đạt giống như cách một người sẽ đọc văn bản đó bằng cách sử dụng kiến thức hiện có để tìm hiểu và giải quyết những thách thức mới.

Ý nghĩa đạo đức và pháp lý của công cụ đột phá này không dễ bị bác bỏ. Bất kỳ ai cũng có thể tạo các đoạn âm thanh bằng cách sử dụng bản ghi âm giọng nói của một người mà không được phép và yêu cầu họ nói bất cứ điều gì họ muốn.

Trong bài báo đã xuất bản, Meta tuyên bố một mô hình phân loại nhị phân có thể phân biệt giữa giọng nói trong thế giới thực và giọng nói mà Voicebox tạo ra.

Meta đã đào tạo Vociebox trên 60.000 giờ sách nói tiếng Anh và 50.000 giờ sách nói đa ngôn ngữ bằng 6 ngôn ngữ để có hiệu suất tối ưu. Quá trình đào tạo của Voicebox cho phép thực hiện chuyển văn bản thành giọng nói đa ngôn ngữ mà không cần đào tạo, khử nhiễu giọng nói, tạo kiểu, chỉnh sửa và tạo các mẫu giọng nói đa dạng.

Trong một bài báo được xuất bản bởi Meta AI, công ty tuyên bố có thể tạo ra các mẫu âm thanh đa dạng nhanh hơn 20 lần so với VALL-E của Microsoft và dễ hiểu hơn.

Ngoài việc nhanh hơn và mắc ít lỗi hơn so với các đối thủ cạnh tranh, Meta tuyên bố Vociebox có thể chuyển đổi văn bản viết thành lời nói bằng một hoặc nhiều ngôn ngữ mà không cần được đào tạo riêng cho từng ngôn ngữ.

So với mô hình tiên tiến trước đây, YourTTS, Voicebox đã giảm tỷ lệ lỗi từ trung bình từ 10,9% xuống 5,2%, cũng như tăng độ tương tự của âm thanh từ 0,335 lên 0,481./.

Theo zdnet, voicebot
Copy Link
Bài liên quan
  • Singapore đầu tư vào cơ sở hạ tầng và quản trị AI
    Bộ trưởng Bộ Thông tin và Truyền thông Singapore Josephine Teo vừa phát biểu về các khoản đầu tư của Singapore vào cơ sở hạ tầng số và chia sẻ các ý tưởng quản trị công nghệ trí tuệ nhân tạo (AI) cũng như nhu cầu tăng cường quan hệ đối tác nước ngoài.
Nổi bật Tạp chí Thông tin & Truyền thông
  • “Bưu điện của Nhân dân”: 80 năm đồng hành cùng đất nước
    80 năm đồng hành cùng đất nước, 18 năm đổi mới và bứt phá, dù trong bất kỳ hoàn cảnh nào, Bưu điện Việt Nam vững vàng là “Bưu điện của Nhân dân” - Nơi gửi gắm niềm tin, sẻ chia và kết nối.
  • Tự hào 80 năm - Bưu điện Việt Nam
    Trưởng thành trong những năm tháng chiến tranh khói lửa, không ngừng phát triển song hành cùng đất nước, 80 năm vững vàng gắn kết mọi miền và dựng xây những giá trị tốt đẹp đến cộng đồng, Bưu điện Việt Nam của hiện tại đã và đang khẳng định vị thế doanh nghiệp bưu chính quốc gia, trở thành một phần không thể tách rời, đóng góp vào sự phát triển của ngành và của đất nước.
  • Ứng dụng công nghệ thực tế ảo tăng cường và trí tuệ nhân tạo tái hiện những thời khắc lịch sử quan trọng
    Hướng tới kỷ niệm 80 năm Cách mạng Tháng Tám và Quốc khánh 2-9, mới đây, Bảo tàng Lịch sử Quân sự Việt Nam đã khai mạc triển lãm chuyên đề “Giữ trọn lời thề độc lập”, đưa người xem ngược thời gian về với những trang sử oanh liệt của dân tộc. Tại đây, công nghệ thực tế ảo tăng cường kết hợp trí tuệ nhân tạo lần đầu tiên đã được ứng dụng để giúp lịch sử hiện hữu sinh động ngay trước mắt người xem.
  • Viettel ứng dụng AI để chia sẻ tải và tối ưu vùng phủ trong đại lễ 2/9
    Với 1.700 trạm phát sóng được lắp mới, mạng 5G Viettel sẽ phủ toàn bộ các địa điểm diễu binh, diễu hành cũng như các sự kiện chào mừng ngày Quốc khánh, phục vụ nhu cầu liên lạc của người dân trong suốt dịp đại lễ 2/9.
  • Các nhà sưu tập tem Việt Nam giành 2 giải Bạc Lớn và 2 giải Mạ Vàng lớn
    Các bộ sưu tập tem của các nhà sưu tập tem Việt Nam đã dành được các giải thưởng lớn Triển lãm Tem Quốc tế châu Á - THAILAND (Asian International Stamp Exhibition) 2025.
Đừng bỏ lỡ
Meta tiết lộ Voicebox AI tái tạo giọng nói bạn bè và người thân
POWERED BY ONECMS - A PRODUCT OF NEKO