Phá vỡ các nút thắt dữ liệu AI
Chuyển động ICT - Ngày đăng : 07:30, 08/11/2024
Phá vỡ các nút thắt dữ liệu AI
Làm thế nào để các tập dữ liệu tổng hợp chất lượng cao có thể giúp chúng ta phát triển các mô hình AI chuyên biệt?
Khi các mô hình trí tuệ nhân tạo (AI) đang ngày càng trở nên phổ biến, dữ liệu cần thiết để đào tạo và huấn luyện chúng chưa bao giờ quan trọng hơn bây giờ. Trong khi đó, vấn đề bản quyền dữ liệu đào tạo AI đang gây ra nhiều lo ngại về quyền riêng tư, vì vậy một giải pháp thay thế mà các công ty như Google và JPMorgan đang khám phá đó là "dữ liệu tổng hợp". Hiện nay, các doanh nghiệp (DN) đang thử nghiệm các mô hình AI với mục đích chung là để tinh chỉnh các mô hình AI chuyên biệt của riêng mình, dữ liệu tổng hợp đang nổi lên như một giải pháp chính để vượt qua các nút thắt cổ chai vốn đang phổ biến và thúc đẩy làn sóng đổi mới tiếp theo.
Nút thắt khan hiếm dữ liệu
Theo Alex Watson, đồng sáng lập và giám đốc sản phẩm tại Gretel, một trong những nút thắt quan trọng nhất trong việc đào tạo các mô hình AI chuyên biệt là sự khan hiếm dữ liệu chất lượng cao theo từng lĩnh vực. Việc xây dựng các mô hình AI trong DN đòi hỏi ngày càng nhiều dữ liệu đa dạng, có ngữ cảnh hóa cao, trong khi nguồn cung có hạn. Sự khan hiếm này, đôi khi được gọi là vấn đề "khởi động nguội". Đối với các công ty khởi nghiệp và các nhóm AI đang xây dựng các sản phẩm AI tạo sinh tiên tiến cho các trường hợp sử dụng chuyên biệt, các tập dữ liệu công khai cũng bị giới hạn do thiếu tính cụ thể và kịp thời.
Vẫn theo Alex Watson, trong khi những người "chơi lớn" như OpenAI đang khai thác Internet để tìm kiếm bất kỳ dữ liệu nào hữu ích. Cách tiếp cận này đòi hỏi giải quyết một loạt các vấn đề liên quan đến bản quyền, quyền riêng tư và chất lượng trong khi đó dữ liệu tổng hợp cung cấp một giải pháp có mục tiêu, an toàn và đạo đức hơn.
Dữ liệu tổng hợp sẽ cho phép các tổ chức mở rộng các tập dữ liệu độc quyền có giới hạn hoặc thậm chí phát triển các ví dụ "hạt giống" từ người dùng để tạo thành nền tảng vững chắc cho việc đào tạo các mô hình chuyên biệt.
Việc này cũng cho phép người dùng tạo dữ liệu cho các tình huống hiếm gặp hoặc có thể không tồn tại trong các tập dữ liệu thực tế. Lặp lại và thử nghiệm nhanh chóng với việc phân phối và quản lý dữ liệu khác nhau để tối ưu hóa hiệu suất mô hình.
"Tổng hợp dữ liệu không chỉ làm tăng khối lượng dữ liệu đào tạo mà còn tăng cường tính đa dạng và tính liên quan của dữ liệu đó đối với các vấn đề cụ thể. Ví dụ, các công ty dịch vụ tài chính hiện đang sử dụng dữ liệu tổng hợp để nhanh chóng tăng cường và đa dạng hóa các bộ dữ liệu đào tạo thực tế nhằm phát hiện gian lận - một nỗ lực được các cơ quan quản lý tài chính như Cơ quan quản lý tài chính của Vương quốc Anh hỗ trợ. Bằng cách sử dụng dữ liệu tổng hợp, các công ty này có thể tạo ra các mô phỏng về các tình huống chưa từng thấy trước đây và có quyền truy cập an toàn vào dữ liệu độc quyền thông qua các hộp cát kỹ thuật số", Alex Watson cho biết.
Nút thắt về quản lý và chất lượng dữ liệu
Các chuyên gia trong ngành cho rằng, ngay cả khi các tổ chức có dữ liệu đáng kể, họ vẫn gặp phải vấn đề về chất lượng dữ liệu và tổ chức.
Theo Alex Watson, vấn đề này biểu hiện ở ít nhất ba khía cạnh, bao gồm: Các tập dữ liệu đào tạo hiện tại có thể trở nên lỗi thời hoặc không còn phù hợp theo thời gian; các tập dữ liệu thực tế thường có những khoảng trống hoặc sai lệch có thể làm sai lệch quá trình đào tạo mô hình; việc đào tạo mô hình hiệu quả đòi hỏi dữ liệu được gắn nhãn tốt, nhưng chú thích thủ công tốn thời gian, dễ dẫn đến sai lệch và không nhất quán.
Khi sử dụng dữ liệu tổng hợp, chúng sẽ phá vỡ các nút thắt này bằng tạo dữ liệu chất lượng cao để lấp đầy khoảng trống trong dữ liệu hiện có và sửa lỗi sai lệch; Tạo thông tin có chú thích đầy đủ theo các quy tắc cụ thể của ngành hoặc các yêu cầu tuân thủ, loại bỏ nhu cầu dán nhãn thủ công. Đồng thời cho phép mở rộng quy trình chú thích dữ liệu nhanh chóng, giảm đáng kể thời gian và việc hạn chế về tài nguyên; và sử dụng dữ liệu tổng hợp sẽ tạo ra dữ liệu sạch hơn, có tổ chức hơn, có thể cải thiện đáng kể độ chính xác và hiệu quả của mô hình.
Nút thắt về quyền riêng tư và bảo mật dữ liệu
Đối với nhiều tổ chức, đặc biệt là những tổ chức trong các ngành được quản lý chặt chẽ, các mối quan ngại về quyền riêng tư và bảo mật dữ liệu tạo ra một nút thắt đáng kể trong quá trình phát triển AI. Các tiêu chuẩn về quyền riêng tư nghiêm ngặt và các quy định chặt chẽ hơn, chẳng hạn như GDPR (Quy định bảo vệ dữ liệu chung) và Đạo luật AI của EU, hạn chế lượng dữ liệu có giá trị có thể sử dụng cho AI.
Dữ liệu tổng hợp, khi kết hợp với các kỹ thuật bảo vệ quyền riêng tư hiện đại như quyền riêng tư khác biệt, sẽ phá vỡ nút thắt này bằng cách đóng vai trò là giao diện an toàn để truy cập vào thông tin chi tiết về dữ liệu phong phú mà không làm ảnh hưởng đến quyền riêng tư của cá nhân.
"Phương pháp tiếp cận này sẽ cho phép các tổ chức tận dụng dữ liệu nhạy cảm vốn không được sử dụng cho mục đích đào tạo AI", Alex Watson chia sẻ.
Trong lĩnh vực chăm sóc sức khỏe, dữ liệu tổng hợp cho phép các công ty ẩn danh và vận hành dữ liệu một cách an toàn từ hồ sơ sức khỏe điện tử, hỗ trợ các trường hợp sử dụng từ phân tích đến bộ đào tạo mô hình ngôn ngữ lớn (LLM) tùy chỉnh mà không làm ảnh hưởng đến quyền riêng tư của bệnh nhân.
Con đường phía trước chính là dữ liệu tổng hợp
Bằng cách vượt qua những nút thắt quan trọng này, dữ liệu tổng hợp đang dân chủ hóa khả năng tiếp cận các cải tiến AI và cho phép phát triển các mô hình AI bền vững, chuyên biệt cao mà trước đây nhiều tổ chức không thể tiếp cận.
Dữ liệu tổng hợp được thiết kế sạch hơn, có thể tùy chỉnh nhiều hơn, ít thiên vị hơn và nhanh hơn dữ liệu thực tế truyền thống. Nó mở ra những khả năng mới cho sự hợp tác dữ liệu an toàn và phát triển AI có lợi cho các công ty khởi nghiệp, nhà khoa học và nhà nghiên cứu, các thương hiệu toàn cầu và các chính phủ.
Khi AI tiếp tục phát triển, vai trò của dữ liệu tổng hợp trong việc phá vỡ các nút thắt, cho phép đào tạo mô hình linh hoạt và lặp đi lặp lại sẽ ngày càng trở nên quan trọng. Các tổ chức áp dụng công nghệ này ngay bây giờ sẽ có vị thế tốt để dẫn đầu trong tương lai do AI thúc đẩy./.