An toàn thông tin

Làm thế nào để ngăn chặn thông tin độc hại trên ChatGPT?

Thu Hường • 14:25 06/02/2023

Nhờ tính năng vượt trội của công nghệ AI, ChatGPT đã thu hút đông người dùng trên thế giới. Vậy làm thế nào để ngăn chặn các thông tin độc hại trên ChatGPT?

Báo Công Thương đã có cuộc trao đổi với PGS. TS. Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam về vấn đề này.

Thưa ông, công cụ ChatGPT của OpenAI đã và đang tạo cơn sốt với người dùng trên toàn thế giới, vậy đâu là những tính năng vượt trội của công cụ này?

ChatGPT (Chat Generative Pre-trained Transformer) là một chatbot do công ty công nghệ OpenAI phát triển. ChatGPT có thể được hiểu đơn giản là một công cụ sử dụng AI (trí tuệ nhân tạo). Điểm đặc biệt của AI nằm ở kỹ thuật diễn giải ngôn ngữ một cách rất tự nhiên cùng với kho “kiến thức” vô cùng lớn mà ChatGPT có được từ bộ dữ liệu huấn luyện ban đầu do OpenAI dựng sẵn (300 tỷ từ).

Làm thế nào để ngăn chặn thông tin độc hại trên ChatGPT?

PGS.TS Nguyễn Trường Thắng cho rằng cần phải tăng cường đưa các bài viết tích cực bằng tiếng Anh lên các trang điện tử để chống những thông tin độc hại trên ChatGPT

ChatGPT có thể trả lời lưu loát đầy đủ các câu hỏi mà bạn đưa ra, bất kể là thắc mắc về lĩnh vực gì. Bên cạnh đó, ChatGPT còn có thể làm thơ, soạn nhạc, viết thư, thiết kế và thậm chí là cả sửa lỗi trong lập trình. Với những câu trả lời chưa đạt theo đánh giá của người dùng, ChatGPT là chatbot tương tác nên nó vẫn tiếp nhận liên tục các phản hồi, đánh giá đúng sai của người dùng với từng phiên truy vấn; và tiếp tục “tự học” và tinh chỉnh kiến thức của mình. Nhiều người đã sử dụng ChatGPT để làm những việc trên, điều này đã khiến cho AI ngày càng thông minh hơn. Cơ chế của ChatGPT là tự học dựa trên phản hồi từ người dùng.

Vậy điểm khác biệt giữa ChatGPT với Google Search hay với các công cụ chatbot khác là gì thưa ông?

Hiện nay, ChatGPT mới ở dạng thử nghiệm nên phần giao diện tương tác đơn giản ở mức dòng lệnh, nhập từ bàn phím. Trong khi đó, Google Search hay các chatbot như Siri của iPhone, Alexa của Amazon, dữ liệu khẩu lệnh đã được tích hợp.

ChatGPT sử dụng trí tuệ nhân tạo dựa trên mô hình dữ liệu lớn, cao cấp hơn các hệ thống truy vấn hàng đầu trên thế giới hiện nay như Google Search. Sự khác biệt cơ bản nhất giữa ChatGPT và các công cụ truy vấn như Google Search, Microsoft Bing… nằm ở kết quả đầu ra.

Các công cụ tìm kiếm thông minh, ví dụ: Google Search, như tên gọi chỉ hỗ trợ tìm kiếm nhanh các tài liệu phù hợp nhất (theo quan điểm và đánh giá của phần mềm) với truy vấn từ người dùng rồi sắp xếp theo thứ tự từ trên xuống (thậm chí có sự ưu tiên cao cho phần kết quả liên quan tới đối tác quảng cáo, tài trợ của Google). Việc lựa chọn tài liệu nào để lấy thông tin liên quan tới nội dung truy vấn là do người dùng. Tức là, người dùng phải tự đánh giá tài liệu nào là phù hợp với tiêu chí tìm kiếm của mình. Sau đó, người dùng sẽ phải tổng hợp từ nhiều tài liệu mà họ nghĩ là phù hợp để có được kết quả chung cho chủ đề truy vấn. Rõ ràng, người dùng phải tự lựa chọn và tổng hợp thông tin.

Với tính năng vượt trội của công nghệ AI, ChatGPT có thể làm thơ, viết văn, soạn nhạc

Trong khi đó, ChatGPT chỉ đưa ra duy nhất một văn bản trả lời (nội dung cơ bản đúng với phần lớn các chủ đề truy vấn tổng quan, độ chính xác của các con số trong dữ liệu thường không cập nhật sau năm 2021).ChatGPT là có thể hiểu là một công cụ tư vấn tự động, trả lời mọi câu hỏi của người dùng với một câu trả lời.

Như vậy, ChatGPT không đẩy việc lựa chọn thông tin cho người dùng mà bản thân nó đã chủ động phân loại, lựa chọn thông tin từ các tài liệu phù hợp trong kho dữ liệu có sẵn của nó (chỉ cập nhật đến năm 2021); và tổng hợp chúng lại thành một văn bản duy nhất. Nội dung câu trả lời hầu như không có sự liên quan trực tiếp của các đối tác tài trợ cho OpenAI. Đây chính là điểm nổi trội của ChatGPT so với các công cụ truy vấn, tìm kiếm hiện có, đặc biệt là Google Search– sản phẩm nổi bật nhất mà chúng ta thường xuyên tin tưởng sử dụng khi muốn tìm kiếm thông tin.

ChatGPT là công cụ có tính tương tác. Nó lưu giữ ký ức về lịch sử các truy vấn và bối cảnh hiện tại để xác định miền kiến thức phù hợp với người dùng trong quá trình tìm kiếm, tổng hợp cho câu trả lời tiếp theo. Tức là, phản hồi từ người dùng đối với các câu hỏi phía trước sẽ ảnh hưởng tới cách ChatGPT tổ chức và xây dựng câu trả lời ở phía sau. Với các chatbot khác, cùng một câu truy vấn cho Google Search sẽ cho danh sách các tài liệu như nhau, độc lập với các câu truy vấn trước đó của cùng người dùng. Đây là sự khác biệt mang đặc trưng “chuỗi tương tác” của ChatGPT.

Vậy ông đánh giá như thế nào về xu hướng người dùng với ChatGPT thời gian tới?

Mặc dù mới đang được thử nghiệm, tuy nhiên ChatGPT đang tạo cơn sốt với người dùng trên thế giới, nhưng tôi tin rằng xu hướng sử dụng ChatGPT sẽ tăng cao. Như đã nói ở trên, sự khác biệt trong tính năng công nghệ của ChatGPT so với các công nghệ thông minh hiện có như Google Search nằm ở chỗ ChatGPT không đẩy việc lựa chọn thông tin cho người dùng mà bản thân nó đã chủ động phân loại, lựa chọn thông tin từ các tài liệu phù hợp trong kho dữ liệu có sẵn của nó; và tổng hợp chúng lại thành một văn bản duy nhất.

Rõ ràng ChatGPT khác biệt với Google Search – sản phẩm nổi bật nhất mà chúng ta thường xuyên tin tưởng sử dụng khi muốn tìm kiếm thông tin. Với sự đột phá về công nghệ phân loại và tổng hợp thông tin được tích hợp trong ChatGPT, tính năng mới này chắc chắn sẽ thu hút nhiều người dùng hơn vì nó hỗ trợ thêm 1 khâu quan trọng khác trong công việc là phân tích và tổng hợp thông tin, thay vì chỉ tìm kiếm như trước đây.

Như thế, ChatGPT sẽ là công cụ đắc lực với đại đa số người dùng với kiến thức phổ thông, đơn giản khi giúp họ phân loại và tổng hợp những thông tin, dữ liệu trong lĩnh vực họ cần tìm hiểu. Kết quả mà ChatGPT tư vấn cho người dùng sẽ tốt ở phân khúc kiến thức sơ bộ, phổ thông và dữ liệu chỉ cập nhật tới năm 2021 (do kho dữ liệu dựng sẵn mà OpenAI dùng đề “huấn luyện” nó chỉ cập nhật đến năm 2021). Tuy nhiên, với những phân khúc người dùng đòi hỏi kiến thức chuyên sâu, dữ liệu sau năm 2021 thì ChatGPT không thể đáp ứng được yêu cầu công việc. Chất lượng các phản hồi của ChatGPT đối với những truy vấn, yêu cầu chuyên sâu thường không chính xác, chưa hoàn chỉnh như thực tế phản ánh bởi nhiều người dùng trong giai đoạn thử nghiệm vừa qua.

Vậy nhìn từ chủ quyền quốc gia về không gian mạng và thông tin về quốc gia cũng như của một ngành nghề kinh tế nào đó, các cơ quan quản lý nhà nước phải làm gì để ngăn chặn thông tin độc hại trên ChatGPT?

ChatGPT là bước đột phá của trí tuệ nhân tạo. Các tác động của nó gồm cả hai mặt tích cực và tiêu cực. Do đó, người dùng cần khai thác các giá trị của nó và thận trọng với các mặt trái. Công cụ này giúp con người trả lời hầu hết các câu hỏi trong một thời gian rất ngắn.

Nội dung câu trả lời là sự tổng hợp thông tin dựa vào kiến thức mà OpenAI huấn luyện ChatGPT với bộ dữ liệu văn bản có sẵn (như đã nói ở trên 300 tỷ từ vựng với số liệu cập nhật tới năm 2021).

Do đó người dùng cần có sự kiểm chứng và tự đánh giá độ xác thực của nội dung phản hồi từ ChatGPT. Khi dữ liệu không có hoặc rất ít trong bộ dữ liệu huấn luyện ban đầu của OpenAI, khả năng ChatGPT sẽ trả lời chung chung, hoặc không chính xác. Điều này đã được thể hiện thông qua thử nghiệm bởi những người dùng với các câu hỏi chuyên sâu như đã trao đổi ở trên.

Với những câu trả lời chưa đạt yêu cầu, ChatGPT là chatbot tương tác với người dùng nên nó vẫn tiếp nhận liên tục các phản hồi, đánh giá đúng sai của người dùng với từng phiên truy vấn; và tiếp tục “tự học” và tinh chỉnh kiến thức của mình.

Với vai trò là công cụ tư vấn, công nghệ trí tuệ nhân tạo như phần mềm ChatGPT chỉ nên được xem xét trong việc hỗ trợ con người thu thập thông tin, kiến thức; và đề xuất, tư vấn một câu trả lời “phù hợp” nhất theo quan điểm của bộ dữ liệu văn bản cực lớn ban đầu của OpenAI. Người dùng cần có tư duy phản biện, năng lực đánh giá nội dung thông tin, và nên coi đó như một nguồn tham khảo có độ tin cậy nhất định.

Thông tin xấu, bất lợi về một quốc gia hay ngành kinh tế nào đó, nếu có trong ChatGPT, sẽ chỉ nằm trong phần trả lời của ChatGPT cho người dùng và nội dung được sinh ra hoàn toàn tự động từ kho dữ liệu văn bản dựng sẵn mà OpenAI huấn luyện ChatGPT (như đã nói ở trên 300 tỷ từ vựng với số liệu cập nhật tới năm 2021).

Cơ quan quản lý sẽ phải có nhiều cấp độ tiếp cận để ngăn chặn các rủi ro. Ảnh minh họa

Với dữ liệu dựng sẵn của OpenAI, nó có ảnh hưởng trực tiếp tới nhận thức của ChatGPT về các mặt KT-XH, văn hóa, khoa học công nghệ… Nếu kho tài liệu này chứa các dữ liệu không phù hợp với hoàn cảnh KT-XH của Việt Nam, khả năng cao là ChatGPT sẽ như một đứa trẻ bị nhồi các kiến thức, quan điểm không đúng về Việt Nam hoặc các ngành kinh tế, lĩnh vực của đất nước. Và hệ quả là các phản hồi của nó sẽ không chính xác, dẫn đến nguy cơ thông tin xấu được truyền tải tới người dùng nếu họ đặt niềm tin quá lớn vào công cụ này.

Cơ quan quản lý sẽ phải có nhiều cấp độ tiếp cận để ngăn chặn các rủi ro này. Vậy cách ứng phó của chúng ta cần như thế nào trong xu thế tất yếu của việc phổ cập sử dụng các công cụ như ChatGPT và Google Search trong xã hội số hiện nay? Mỗi quốc gia, các ngành kinh tế, doanh nghiệp phải có tăng cường thông tin, hình ảnh tích cực của mình thông qua nhiều bài viết có nội dung tích cực và số liệu phù hợp, cập nhật. Càng nhiều bài viết được đẩy lên Internet thì chúng ta sẽ tăng cường sức mạnh truyền tải nội dung, quan điểm chính thống của Việt Nam tới các công cụ thông minh như Google Search hay ChatGPT để trở thành dữ liệu huấn luyện cơ bản cho các hệ thống học máy của Google hay OpenAI.

Xin cảm ơn ông!