Diễn đàn

Sáng tạo nội dung: Sản phẩm đầu ra của ChatGPT có được coi là đạo văn?

AD • 17:04 18/07/2023

Các mô hình ngôn ngữ trí tuệ nhân tạo (AI) như ChatGPT của OpenAI đã trở nên nổi bật do các ứng dụng tiềm năng của chúng.

Tuy nhiên, sự phát triển vượt bậc này cũng đặt ra những thách thức mới, bao gồm cả việc liệu sản phẩm đầu ra do ChatGPT tạo ra có bị coi là đạo văn hay không và luật bản quyền áp dụng như thế nào đối với những trường hợp như vậy.

Trên thực tế, các mô hình AI được đào tạo dựa trên lượng dữ liệu khổng lồ, với rất nhiều tài liệu trực tuyến. Điều này đặt ra một câu hỏi: liệu chúng có vô tình trở thành sản phẩm đạo văn không?

Đặc biệt, sự ra đời của công cụ ChatGPT với tính năng có thể tạo ra các văn bản như con người. Do đó, các thảo luận cũng được tập trung nhiều vào kho dữ liệu học tập của ChatGPT, một tập hợp thông tin khổng lồ mà AI sử dụng để tạo văn bản.

AI không học bằng cách ghi nhớ chính xác các văn bản hoặc tài liệu được sử dụng trong quá trình đào tạo. Thay vào đó, nó phát hiện và đồng hóa các mẫu trong dữ liệu, tương tự như một đứa trẻ học ngôn ngữ. Những đứa trẻ này không nhớ từng cuốn sách hoặc cuộc trò chuyện; chúng nắm bắt các mô hình mà chúng tiếp xúc.

Tương tự, ChatGPT không sao chép nguyên văn văn bản từ dữ liệu đào tạo; mà nó sáng tạo văn bản mới dựa trên mẫu đã học. Nó không hiểu chi tiết về các tài liệu hoặc nguồn cụ thể có trong bộ dữ liệu đào tạo. Nó cũng không thể truy cập vào cơ sở dữ liệu độc quyền hoặc tài liệu bí mật, mà chỉ xử lý thông tin công khai có sẵn trong dữ liệu đào tạo của nó. Ngoài ra, sau quá trình đào tạo, nó không thể truy xuất hoặc tìm kiếm thông tin từ Internet một cách độc lập.

Tuy nhiên, một vấn đề lớn nổi lên là nếu mô hình tạo ra đầu ra về một chủ đề gần giống với nội dung nào đó trong dữ liệu đào tạo – ngay cả khi đó không phải là bản sao trực tiếp – liệu điều này có thể coi là đạo văn không?

Dựa vào cách hoạt động của AI như ChatGPT, có thể hiểu rằng các công cụ này có thể vô tình tạo ra văn bản phản ánh phong cách hoặc nội dung của dữ liệu đào tạo mà người dùng không nhận ra. Vấn đề phức tạp này đặt ra những câu hỏi quan trọng về cách xã hội nhìn nhận và định nghĩa đạo văn trong bối cảnh văn bản do AI tạo ra.

Vấn đề này thực sự khó bởi các mô hình AI như ChatGPT không có ý thức “biết” hoặc “chủ định” làm bất cứ điều gì - chúng chỉ tạo ra đầu ra dựa trên quá trình huấn luyện của chúng. Điều này khác với việc đạo văn của con người, khi một hành động được thực hiện một cách có chủ ý. Với AI, khái niệm này không còn phù hợp, khiến chúng ta phải xem xét lại những yếu tố tạo thành hành vi đạo văn trong ngữ cảnh mới này.

Liệu sản phẩm đầu ra của ChatGPT có được coi là đạo văn?

Cần có những quy định cụ thể về AI sáng tạo nội dung để đáp ứng xu thế phát triển chung

Trong tương lai, ý nghĩa của việc cấp phép và bản quyền trong bối cảnh AI cũng rất phức tạp. AI đang ở giai đoạn đầu phát triển và hoạt động trong một lĩnh vực chưa có nhiều quy định liên quan đến luật bản quyền. Các quy định hiện tại không được xây dựng dành cho AI, vì vậy, việc áp dụng chúng vào công nghệ mới này đòi hỏi phải có một cách tiếp cận thích hợp.

Mặc dù các quy định về bản quyền có thể khác nhau trong các khu vực pháp lý, nhưng chúng thường không áp dụng cho dữ liệu được sử dụng trong các quy trình máy học. Tuy nhiên, đầu ra cuối cùng có thể vi phạm bản quyền nếu nó rất giống với tài liệu đã có bản quyền. Rõ ràng, vấn đề này đang đặt ra các bài toán cho các chuyên gia pháp lý, nhà đạo đức học cũng như nhà phát triển AI. Có thể trong tương lai cần phải có các quy định mới để có các cách tiếp cận phù hợp hơn.

OpenAI cam kết tuân thủ các luật và giấy phép hiện hành trong dữ liệu đào tạo của nó. Vì vậy, khả năng một tài liệu hạn chế cụ thể trở thành một phần của tập dữ liệu đào tạo là rất ít. Ngay cả khi có một tài liệu như vậy được thêm vào, ChatGPT sẽ không sao chép nguyên văn từ tài liệu đó; thay vào đó, nó sẽ sử dụng các mẫu rộng hơn mà nó đã học được để tạo ra các phản hồi độc đáo.

Bên cạnh đó, OpenAI cũng đã thể hiện cam kết bảo vệ chống đạo văn và việc sử dụng AI sai mục đích, khám phá các cách để “tạo hình mờ” cho văn bản do GPT tạo nhằm xác định nguồn gốc của nó.

Ngoài ra, OpenAI đã giới thiệu một công cụ mới là Trình phân loại văn bản AI, có khả năng phân biệt văn bản do AI viết. Công cụ miễn phí này, ra mắt vào đầu năm nay, hỗ trợ xác định xem một mẫu văn bản có phải là do AI viết hay không, đây là một bước quan trọng để tăng tính minh bạch và trách nhiệm giải trình.

Khi AI ngày càng được tích hợp vào các khía cạnh khác nhau của xã hội, mục tiêu chung là thúc đẩy một môi trường phát triển, đổi mới và tiến bộ công nghệ đồng thời tôn trọng và bảo vệ quyền sở hữu trí tuệ, do đó, trong tương lai chúng ta cũng cần có những quy định cụ thể để có thể phát huy được hết tiềm năng thật sự của công nghệ này./.