Chuyển động ICT

Phá vỡ các nút thắt dữ liệu AI

Tuấn Trần 08/11/2024 7:30

Làm thế nào để các tập dữ liệu tổng hợp chất lượng cao có thể giúp chúng ta phát triển các mô hình AI chuyên biệt?

Khi các mô hình trí tuệ nhân tạo (AI) đang ngày càng trở nên phổ biến, dữ liệu cần thiết để đào tạo và huấn luyện chúng chưa bao giờ quan trọng hơn bây giờ. Trong khi đó, vấn đề bản quyền dữ liệu đào tạo AI đang gây ra nhiều lo ngại về quyền riêng tư, vì vậy một giải pháp thay thế mà các công ty như Google và JPMorgan đang khám phá đó là "dữ liệu tổng hợp". Hiện nay, các doanh nghiệp (DN) đang thử nghiệm các mô hình AI với mục đích chung là để tinh chỉnh các mô hình AI chuyên biệt của riêng mình, dữ liệu tổng hợp đang nổi lên như một giải pháp chính để vượt qua các nút thắt cổ chai vốn đang phổ biến và thúc đẩy làn sóng đổi mới tiếp theo.

66be197f14bfb0e5f6e2d51a_667b30cf9063e68dd9346742_data-bottleneck.jpeg
Dữ liệu tổng hợp đang nổi lên như một giải pháp chính để vượt qua các nút thắt cổ chai phổ biến và thúc đẩy làn sóng đổi mới tiếp theo khi các DN thử nghiệm các mô hình AI.

Nút thắt khan hiếm dữ liệu

Theo Alex Watson, đồng sáng lập và giám đốc sản phẩm tại Gretel, một trong những nút thắt quan trọng nhất trong việc đào tạo các mô hình AI chuyên biệt là sự khan hiếm dữ liệu chất lượng cao theo từng lĩnh vực. Việc xây dựng các mô hình AI trong DN đòi hỏi ngày càng nhiều dữ liệu đa dạng, có ngữ cảnh hóa cao, trong khi nguồn cung có hạn. Sự khan hiếm này, đôi khi được gọi là vấn đề "khởi động nguội". Đối với các công ty khởi nghiệp và các nhóm AI đang xây dựng các sản phẩm AI tạo sinh tiên tiến cho các trường hợp sử dụng chuyên biệt, các tập dữ liệu công khai cũng bị giới hạn do thiếu tính cụ thể và kịp thời.

Vẫn theo Alex Watson, trong khi những người "chơi lớn" như OpenAI đang khai thác Internet để tìm kiếm bất kỳ dữ liệu nào hữu ích. Cách tiếp cận này đòi hỏi giải quyết một loạt các vấn đề liên quan đến bản quyền, quyền riêng tư và chất lượng trong khi đó dữ liệu tổng hợp cung cấp một giải pháp có mục tiêu, an toàn và đạo đức hơn.

Dữ liệu tổng hợp sẽ cho phép các tổ chức mở rộng các tập dữ liệu độc quyền có giới hạn hoặc thậm chí phát triển các ví dụ "hạt giống" từ người dùng để tạo thành nền tảng vững chắc cho việc đào tạo các mô hình chuyên biệt.

Việc này cũng cho phép người dùng tạo dữ liệu cho các tình huống hiếm gặp hoặc có thể không tồn tại trong các tập dữ liệu thực tế. Lặp lại và thử nghiệm nhanh chóng với việc phân phối và quản lý dữ liệu khác nhau để tối ưu hóa hiệu suất mô hình.

"Tổng hợp dữ liệu không chỉ làm tăng khối lượng dữ liệu đào tạo mà còn tăng cường tính đa dạng và tính liên quan của dữ liệu đó đối với các vấn đề cụ thể. Ví dụ, các công ty dịch vụ tài chính hiện đang sử dụng dữ liệu tổng hợp để nhanh chóng tăng cường và đa dạng hóa các bộ dữ liệu đào tạo thực tế nhằm phát hiện gian lận - một nỗ lực được các cơ quan quản lý tài chính như Cơ quan quản lý tài chính của Vương quốc Anh hỗ trợ. Bằng cách sử dụng dữ liệu tổng hợp, các công ty này có thể tạo ra các mô phỏng về các tình huống chưa từng thấy trước đây và có quyền truy cập an toàn vào dữ liệu độc quyền thông qua các hộp cát kỹ thuật số", Alex Watson cho biết.

Nút thắt về quản lý và chất lượng dữ liệu

Các chuyên gia trong ngành cho rằng, ngay cả khi các tổ chức có dữ liệu đáng kể, họ vẫn gặp phải vấn đề về chất lượng dữ liệu và tổ chức.

Theo Alex Watson, vấn đề này biểu hiện ở ít nhất ba khía cạnh, bao gồm: Các tập dữ liệu đào tạo hiện tại có thể trở nên lỗi thời hoặc không còn phù hợp theo thời gian; các tập dữ liệu thực tế thường có những khoảng trống hoặc sai lệch có thể làm sai lệch quá trình đào tạo mô hình; việc đào tạo mô hình hiệu quả đòi hỏi dữ liệu được gắn nhãn tốt, nhưng chú thích thủ công tốn thời gian, dễ dẫn đến sai lệch và không nhất quán.

Khi sử dụng dữ liệu tổng hợp, chúng sẽ phá vỡ các nút thắt này bằng tạo dữ liệu chất lượng cao để lấp đầy khoảng trống trong dữ liệu hiện có và sửa lỗi sai lệch; Tạo thông tin có chú thích đầy đủ theo các quy tắc cụ thể của ngành hoặc các yêu cầu tuân thủ, loại bỏ nhu cầu dán nhãn thủ công. Đồng thời cho phép mở rộng quy trình chú thích dữ liệu nhanh chóng, giảm đáng kể thời gian và việc hạn chế về tài nguyên; và sử dụng dữ liệu tổng hợp sẽ tạo ra dữ liệu sạch hơn, có tổ chức hơn, có thể cải thiện đáng kể độ chính xác và hiệu quả của mô hình.

Nút thắt về quyền riêng tư và bảo mật dữ liệu

Đối với nhiều tổ chức, đặc biệt là những tổ chức trong các ngành được quản lý chặt chẽ, các mối quan ngại về quyền riêng tư và bảo mật dữ liệu tạo ra một nút thắt đáng kể trong quá trình phát triển AI. Các tiêu chuẩn về quyền riêng tư nghiêm ngặt và các quy định chặt chẽ hơn, chẳng hạn như GDPR (Quy định bảo vệ dữ liệu chung) và Đạo luật AI của EU, hạn chế lượng dữ liệu có giá trị có thể sử dụng cho ​​AI.

Dữ liệu tổng hợp, khi kết hợp với các kỹ thuật bảo vệ quyền riêng tư hiện đại như quyền riêng tư khác biệt, sẽ phá vỡ nút thắt này bằng cách đóng vai trò là giao diện an toàn để truy cập vào thông tin chi tiết về dữ liệu phong phú mà không làm ảnh hưởng đến quyền riêng tư của cá nhân.

"Phương pháp tiếp cận này sẽ cho phép các tổ chức tận dụng dữ liệu nhạy cảm vốn không được sử dụng cho mục đích đào tạo AI", Alex Watson chia sẻ.

Trong lĩnh vực chăm sóc sức khỏe, dữ liệu tổng hợp cho phép các công ty ẩn danh và vận hành dữ liệu một cách an toàn từ hồ sơ sức khỏe điện tử, hỗ trợ các trường hợp sử dụng từ phân tích đến bộ đào tạo mô hình ngôn ngữ lớn (LLM) tùy chỉnh mà không làm ảnh hưởng đến quyền riêng tư của bệnh nhân.

Con đường phía trước chính là dữ liệu tổng hợp

Bằng cách vượt qua những nút thắt quan trọng này, dữ liệu tổng hợp đang dân chủ hóa khả năng tiếp cận các cải tiến AI và cho phép phát triển các mô hình AI bền vững, chuyên biệt cao mà trước đây nhiều tổ chức không thể tiếp cận.

Dữ liệu tổng hợp được thiết kế sạch hơn, có thể tùy chỉnh nhiều hơn, ít thiên vị hơn và nhanh hơn dữ liệu thực tế truyền thống. Nó mở ra những khả năng mới cho sự hợp tác dữ liệu an toàn và phát triển AI có lợi cho các công ty khởi nghiệp, nhà khoa học và nhà nghiên cứu, các thương hiệu toàn cầu và các chính phủ.

Khi AI tiếp tục phát triển, vai trò của dữ liệu tổng hợp trong việc phá vỡ các nút thắt, cho phép đào tạo mô hình linh hoạt và lặp đi lặp lại sẽ ngày càng trở nên quan trọng. Các tổ chức áp dụng công nghệ này ngay bây giờ sẽ có vị thế tốt để dẫn đầu trong tương lai do AI thúc đẩy./.

Bài liên quan
Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
  • Xây dựng hạ tầng cho mạng 5G tương lai của Việt Nam
    Đông Nam Á là một trong những khu vực có tốc độ phát triển nhanh nhất trên thế giới. Dự kiến tới năm 2030, ASEAN (gồm 10 quốc gia Đông Nam Á) sẽ trở thành nền kinh tế lớn thứ tư toàn cầu. Phần lớn động lực thúc đẩy sự phát triển này đến từ sự vận động và tăng trưởng không ngừng của nền kinh tế số trong khu vực, với giá trị ước tính lên đến gần 1 nghìn tỉ đô-la vào năm 2030.
  • Xử phạt VNTEL 70 triệu đồng vì gọi rác bôi nhọ, đòi nợ
    Thanh tra Bộ Thông tin và Truyền thông đã ban hành quyết định xử phạt vi phạm hành chính đối với Công ty Cổ phần viễn thông tin học Việt Nam (VNTEL) 70 triệu đồng vì thực hiện cuộc gọi rác với mục đích bôi nhọ, quấy rối, đòi nợ.
  • Công nghệ và câu chuyện truyền cảm hứng của chàng trai "người điếc”
    Cơn bạo bệnh ngày bé đã khiến Phạm Minh Chiến từ một cậu bé bình thường trở thành “người điếc”. Không đầu hàng số phận, Chiến nỗ lực học tập, rồi bén duyên với công nghệ.
  • Phát huy vai trò người có uy tín trong cộng đồng DTTS và miền núi
    Người có uy tín (NCUT) trong đồng bào DTTS và miền núi giữ vai trò vô cùng quan trọng trong xây dựng hệ thống chính trị cơ sở, đảm bảo an ninh trật tự, và củng cố nền quốc phòng toàn dân kết hợp với thế trận an ninh nhân dân, tích cực tham gia vào công cuộc xóa đói giảm nghèo và xây dựng nông thôn mới. NCUT là lực lượng quần chúng đặc biệt - nhịp cầu kết nối ý Đảng với lòng dân, trung tâm khối đại đoàn kết các dân tộc trong cộng đồng.
  • FPT.IDCheck: Giải pháp "tháo gỡ" bài toán xác thực định danh
    Một trong những giải pháp nổi bật đóng góp vào quá trình xây dựng kinh tế số - xã hội số của FPT đó là giải pháp chống giả mạo xác thực số FPT.IDCheck. Giải pháp giúp doanh nghiệp tháo gỡ rủi ro về giả mạo xác thực trong giao dịch, tiết kiệm chi phí, nâng cao trải nghiệm, tăng khả năng tự động hóa và sức cạnh tranh.
  • Cuộc đua xây trung tâm dữ liệu ngàn tỷ tại Việt Nam
    Trong vài năm qua, nhiều doanh nghiệp trong nước đã đầu tư hàng ngàn tỷ đồng để xây dựng các trung tâm dữ liệu đạt tiêu chuẩn quốc tế. Điều này không chỉ giúp tăng cường tính chủ động cho hạ tầng Internet, góp phần phục vụ mạnh mẽ hơn cho công tác chuyển đổi số trong nước mà còn sẵn sàng để cạnh tranh trên thị trường quốc tế.
  • AI giúp giảm rủi ro, bảo vệ dữ liệu
    Các tổ chức, doanh nghiệp giờ đây có thể biết, dự đoán, ngăn chặn tình trạng mất dữ liệu trên các thiết bị được quản lý và không được quản lý thông qua việc sử dụng giải pháp AI của Fortinet.
  • Việt Nam có vị trí tốt để tham gia ở mọi giai đoạn của chuỗi giá trị bán dẫn
    Theo Chủ tịch Hội đồng tư vấn khu vực Đông Nam Á của Hiệp hội bán dẫn toàn cầu (SEMI), từ thiết kế mạch tích hợp, lắp ráp, thử nghiệm đến đóng gói, Việt Nam đang có vị trí tốt để tham gia ở mọi giai đoạn của chuỗi giá trị bán dẫn.
  • Viettel 5G2B: Kiến tạo cuộc sống mới với giao thông thông minh và logistics
    Đưa kết nối tốc độ cao, độ trễ thấp, mật độ thiết bị cực lớn từ mạng 5G vào phát triển giao thông thông minh và logistics, Viettel 5G2B hứa hẹn mở ra những tiện ích mới chưa từng có cho cuộc sống người dân Việt Nam trong kỷ nguyên số.
  • Hà Giang coi trọng phát triển KT-XH vùng đồng bào thiểu số, miền núi
    Công tác dân tộc, nhất là phát triển kinh tế - xã hội vùng đồng bào dân tộc thiểu số và miền núi được tỉnh Hà Giang đặc biệt quan tâm, coi đây là nhiệm vụ thường xuyên, quan trọng của cả hệ thống chính trị.
Phá vỡ các nút thắt dữ liệu AI
POWERED BY ONECMS - A PRODUCT OF NEKO