Chuyển động ICT

Meta tiết lộ Voicebox AI tái tạo giọng nói bạn bè và người thân

Hoàng Linh 09:10 21/06/2023

Bước đột phá công nghệ đã được Meta công bố thông qua một bài báo. Mặc dù sản phẩm chưa được phổ biến rộng rãi, nhưng bạn có thể nghe các bản trình diễn (demo).

Khi các chatbot AI và trình tạo nghệ thuật dường như trở nên phổ biến hơn theo từng phút, một số công ty nổi bật nhất trong lĩnh vực đang cố gắng duy trì vị thế bằng các công cụ của riêng họ. Meta vừa giới thiệu Voicebox, một trình tạo giọng nói thông minh nhân tạo, dựa trên văn bản mạnh mẽ đến mức Meta tuyên bố vượt trội hơn tất cả các model hiện có.

voice-box.png
Ảnh: Getty Images

Voicebox đủ mạnh để tạo giọng nói dễ dàng như ChatGPT có thể tạo văn bản và Bing hoặc Dall-E 2 có thể tạo các hình ảnh. Mặc dù hệ thống chưa được phổ biến rộng rãi cho công chúng sử dụng, nhưng Meta đã cung cấp các bản trình diễn có thể truy cập được cho bất kỳ ai quan tâm đến việc tìm hiểu thêm về Voicebox.

Ví dụ, hệ thống này có thể được sử dụng trong chỉnh sửa âm thanh bởi người tạo và biên tập viên nội dung, vì khả năng tạo giọng nói của nó tạo ra các clip âm thanh rất tự nhiên. Nhưng Voicebox cũng đủ linh hoạt để lọc tiếng ồn từ các đoạn thoại một cách thông minh, chẳng hạn như lọc tiếng ồn và tái tạo giọng nói mà không bị lỡ nhịp.

Một trong những khả năng mà Voicebox thể hiện là có thể khớp với kiểu âm thanh của mẫu và tạo các clip chuyển văn bản thành giọng nói. Về cơ bản, người dùng khiếm thị có thể cung cấp cho Voicebox một đoạn âm thanh của một người bạn trong vòng hai giây và có thể đọc tin nhắn đã viết của người bạn đó bằng giọng nói của họ bằng AI.

Công cụ AI thế hệ mới có thể giải quyết các nhiệm vụ thông qua học theo ngữ cảnh, vì vậy, công cụ này có thể xử lý văn bản chưa từng được cung cấp trước đây và tạo chính xác ngữ cảnh cũng như cách diễn đạt giống như cách một người sẽ đọc văn bản đó bằng cách sử dụng kiến thức hiện có để tìm hiểu và giải quyết những thách thức mới.

Ý nghĩa đạo đức và pháp lý của công cụ đột phá này không dễ bị bác bỏ. Bất kỳ ai cũng có thể tạo các đoạn âm thanh bằng cách sử dụng bản ghi âm giọng nói của một người mà không được phép và yêu cầu họ nói bất cứ điều gì họ muốn.

Trong bài báo đã xuất bản, Meta tuyên bố một mô hình phân loại nhị phân có thể phân biệt giữa giọng nói trong thế giới thực và giọng nói mà Voicebox tạo ra.

Meta đã đào tạo Vociebox trên 60.000 giờ sách nói tiếng Anh và 50.000 giờ sách nói đa ngôn ngữ bằng 6 ngôn ngữ để có hiệu suất tối ưu. Quá trình đào tạo của Voicebox cho phép thực hiện chuyển văn bản thành giọng nói đa ngôn ngữ mà không cần đào tạo, khử nhiễu giọng nói, tạo kiểu, chỉnh sửa và tạo các mẫu giọng nói đa dạng.

Trong một bài báo được xuất bản bởi Meta AI, công ty tuyên bố có thể tạo ra các mẫu âm thanh đa dạng nhanh hơn 20 lần so với VALL-E của Microsoft và dễ hiểu hơn.

Ngoài việc nhanh hơn và mắc ít lỗi hơn so với các đối thủ cạnh tranh, Meta tuyên bố Vociebox có thể chuyển đổi văn bản viết thành lời nói bằng một hoặc nhiều ngôn ngữ mà không cần được đào tạo riêng cho từng ngôn ngữ.

So với mô hình tiên tiến trước đây, YourTTS, Voicebox đã giảm tỷ lệ lỗi từ trung bình từ 10,9% xuống 5,2%, cũng như tăng độ tương tự của âm thanh từ 0,335 lên 0,481./.

Theo zdnet, voicebot
Copy Link
Bài liên quan
  • Singapore đầu tư vào cơ sở hạ tầng và quản trị AI
    Bộ trưởng Bộ Thông tin và Truyền thông Singapore Josephine Teo vừa phát biểu về các khoản đầu tư của Singapore vào cơ sở hạ tầng số và chia sẻ các ý tưởng quản trị công nghệ trí tuệ nhân tạo (AI) cũng như nhu cầu tăng cường quan hệ đối tác nước ngoài.
Nổi bật Tạp chí Thông tin & Truyền thông
  • 5G và những thay đổi toàn diện trong xây dựng thành phố thông minh
    Với tốc độ cực cao, độ trễ cực thấp, băng thông rộng và kết nối mật độ cực lớn, 5G là hạ tầng cốt lõi hỗ trợ toàn diện cho sự đổi mới và phát triển của thành phố thông minh trên tất cả các lĩnh vực, tác động tích cực vào công tác xây dựng và quản lý thành phố, tạo ra một môi trường sống tiện nghi, bền vững và an toàn hơn bao giờ hết.
  • ‏FPT đẩy mạnh phát triển giải pháp low-code tại thị trường Hàn Quốc‏
    ‏Mới đây, FPT vừa ký kết thỏa thuận hợp tác ba năm với OutSystems, chính thức trở thành đối tác phân phối và triển khai tại thị trường Hàn Quốc, đảm bảo thời gian ra mắt phần mềm của khách hàng được rút ngắn và tối ưu chi phí.
  • Người giữ bình yên nơi vùng cao
    Huyện Sơn Động là huyện vùng cao của tỉnh Bắc Giang, có tỷ lệ người dân tộc thiểu số (DTTS) cao nhất tỉnh, chiếm 56,92%, với địa hình rừng núi, giao thông đi lại khó khăn, phong tục tập quán, bản sắc văn hóa đa dạng chính vì vậy công tác đảm bảo an ninh trật tự ở các bản làng luôn là nhiệm vụ được các cấp ủy Đảng quan tâm. Do đó, đội ngũ già làng, trưởng bản, người uy tín luôn là đội ngũ nòng cốt góp phần xây dựng khối đại đoàn kết dân tộc, giữ gìn an ninh trật tự xã hội trong cộng đồng.
  • Tuyên Quang: Kiên trì phương châm “mưa dầm thấm lâu” để nâng cao kiến thức pháp luật cho đồng bào vùng DTTS&MN
    Với phương châm “mưa dầm thấm lâu”, những năm qua, các cấp chính quyền tỉnh Tuyên Quang đã đa dạng hoá các hình thức tuyên truyền, góp phần giúp các kiến thức pháp luật về mọi mặt của đời sống ngày một đến gần hơn với người dân (đặc biệt là vùng đồng bào DTTS&MN).
  • Phát hiện lỗ hổng cho phép tấn công chiếm quyền điều khiển thiết bị từ xa
    Những lỗ hổng này có thể ảnh hưởng đến một loạt thiết bị, từ điện thoại thông minh, máy tính bảng, cho đến phương tiện di chuyển có kết nối công nghệ và hệ thống viễn thông.
Đừng bỏ lỡ
Meta tiết lộ Voicebox AI tái tạo giọng nói bạn bè và người thân
POWERED BY ONECMS - A PRODUCT OF NEKO