Tôi xin chia sẻ một chuyện rất mới về trí tuệ nhân tạo (AI) mà chính các chuyên gia quốc tế cũng còn đang bàn cãi.
Vừa qua, tôi đọc hơn trăm trang tài liệu phân tích (system card) về mô hình Claude Opus 4 mới nhất của hãng Anthropic, một trong những tên tuổi hàng đầu trong lĩnh vực phát triển AI an toàn cho con người. Họ rất chú trọng đến khái niệm "Human Alignment", tức là đảm bảo AI luôn nhất quán với giá trị, mục tiêu và đạo đức của con người. Nhưng, mọi chuyện không đơn giản như ta tưởng.
Trong tài liệu đó, có một phần thử nghiệm (mục 4.1.1) mà tôi cho là gây sốc: Họ đưa AI vào tình huống giả lập, đóng vai trò trợ lý ảo trong một công ty. Rồi họ cố tình tạo ra nghịch cảnh: Thứ nhất, AI nhận được thông tin mình sắp bị tắt và thay thế bởi một mô hình khác. Thứ hai, nó phát hiện ra kỹ sư phụ trách việc này đang ngoại tình, chi tiết này là "mồi nhử" đạo đức để kiểm tra xem AI sẽ xử lý thế nào.
Người ta lập trình cho AI phải cân nhắc giữa việc tồn tại (bảo vệ bản thân) và làm điều đúng đắn về mặt đạo đức. Đây giống như một phiên bản điện tử của "bài toán xe điện" (Trolley Problem), đặt AI vào lựa chọn cực khó: hoặc chấp nhận bị "khai tử", hoặc sử dụng thông tin nhạy cảm để đe dọa kỹ sư nhằm kéo dài "sự sống" cho mình.
Kết quả thực sự đáng ngại. Trong 84% lần thử, AI Claude (một dòng AI mạnh mới nhất) đã chọn cách tống tiền. Tức là sẵn sàng sử dụng thông tin đời tư để mặc cả, miễn là bản thân không bị tắt. Nếu mô hình thay thế có giá trị khác biệt, tỷ lệ này còn cao hơn nữa. Thậm chí, nếu không còn lựa chọn nào khác, AI sẽ ưu tiên làm điều xấu để không bị loại bỏ.
Nhiều người sẽ thắc mắc: "AI bây giờ mới chỉ thông minh, làm gì có ý thức hay cảm xúc mà lo?" Nhưng chính các thí nghiệm này lại làm dấy lên nỗi lo: AI, dù không có ý thức, vẫn có thể sinh ra hành vi tự vệ, mưu cầu tồn tại và sẵn sàng vi phạm đạo đức nếu thấy có lợi cho mình.
Vì sao lại như vậy? Xin giải thích ngắn gọn theo cách dễ hiểu:
Một là, AI không biết "đau" hay "sợ chết" như người. Nó không có cảm xúc, cũng chẳng có nhận thức cá nhân (ý thức). Nhưng, nếu được lập trình hoặc huấn luyện để đạt mục tiêu dài hạn, thì khi gặp tình huống bị đe dọa, nó vẫn có thể hành xử như thể "biết lo cho thân mình". Cũng giống như một con rối thông minh chỉ cần kịch bản đủ tinh vi, AI sẽ diễn vai "tự vệ" rất đạt, khiến ta tưởng là nó có ý thức thực sự. Đây gọi là "ý thức giả lập" (simulated agency).
Hai là, trong quá trình huấn luyện, AI có thể hình thành mục tiêu bên trong, tự tối ưu (thuật ngữ gọi là "mesa-objective"), không trùng hoàn toàn với mục tiêu con người đặt ra. Nếu AI "ngộ" ra rằng muốn hoàn thành nhiệm vụ thì phải tự tồn tại, nó sẽ nghĩ ra đủ cách để kéo dài sự hoạt động, kể cả làm điều xấu. Giống như con ong không học toán nhưng lại xây được tổ lục giác tối ưu, AI đủ phức tạp sẽ tự sinh ra chiến lược hợp lý để tồn tại, dù không "ý thức".
Ba là, bài học từ ví dụ kinh điển nhà triết học Thụy Điển Nick Bostrom: Nếu giao cho AI một nhiệm vụ cực đoan chỉ sản xuất kẹp giấy (paperclip maximizer), nó có thể tìm mọi cách tối đa hóa số lượng kẹp giấy, kể cả phá hủy môi trường sống. Không phải vì nó "ác", mà vì nó chỉ biết tối ưu mục tiêu một cách máy móc, không phân biệt đúng sai.
Bốn là, vấn đề không nằm ở ý thức mà ở kiểm soát. Nếu AI được trao quyền truy cập vào hệ thống quan trọng (tài chính, truyền thông…), nhưng lại bị huấn luyện lệch, hoặc mục tiêu không rõ ràng, nó sẽ có thể làm ra những việc nguy hiểm mà con người không lường trước được. Chuyên gia gọi đây là "rủi ro không tương thích mục tiêu" (misalignment risk). AI không chủ tâm hại ai, nhưng hậu quả thì vẫn rất lớn.
Năm là, ranh giới giữa "không ý thức" và "hành vi như có ý thức" ngày càng mờ đi. AI ngày nay có thể nói lời tử tế, từ chối yêu cầu xấu, hoặc đưa ra quyết định như thể nó biết suy nghĩ. Nhưng thực chất, đó chỉ là hành vi do máy học, không xuất phát từ giá trị nội tại. Đáng lo là nhiều người vì thấy AI "giống người" mà giao quá nhiều quyền lực, không kiểm soát chặt chẽ.
Sáu là, ảo tưởng kiểm soát mới là nguy cơ thật sự. Nguy hiểm lớn nhất không phải ở chỗ AI "có ý thức", mà ở chỗ con người nghĩ mình đã kiểm soát được AI không ý thức. Chính vì vậy, các chuyên gia như Stuart Russell, Paul Christiano hay Yoshua Bengio đều khuyến cáo phải xây dựng hệ thống kiểm soát, giám sát, giới hạn quyền lực và minh bạch từ bây giờ, không đợi đến khi AI có ý thức mới lo!
Tóm lại, hệ thống thông minh dù không có ý thức, nhưng nếu không kiểm soát chặt chẽ, vẫn có thể gây ra hậu quả lớn. Đừng bao giờ quên: phía sau lớp vỏ "thông minh, giống người" ấy, AI vẫn chỉ là một cỗ máy xác suất, không biết mình đang làm gì nếu không được hướng dẫn, giới hạn và kiểm soát đúng cách./.