Qualia - Trải nghiệm chủ quan và hạn chế của mô hình ngôn ngữ lớn

Ý kiến chuyên gia - Ngày đăng : 12:15, 06/10/2024

Large Language Models (LLMs) như GPT-4 rất thông minh khi nói đến việc xử lý và tạo ra ngôn ngữ. Chúng có thể trả lời câu hỏi và thậm chí tạo ra câu chuyện phức tạp để giải thích những khái niệm khó hiểu. Tuy nhiên, không giống như con người, LLMs không có qualia. Chúng không có bất kỳ trải nghiệm chủ quan nào, dù có thể viết ra những đoạn văn rất hay và cân đối.
Ý kiến chuyên gia

Qualia - Trải nghiệm chủ quan và hạn chế của mô hình ngôn ngữ lớn

Đào Trung Thành, Chuyên gia tư vấn CĐS, viễn thông, CNTT {Ngày xuất bản}

Large Language Models (LLMs) như GPT-4 rất thông minh khi nói đến việc xử lý và tạo ra ngôn ngữ. Chúng có thể trả lời câu hỏi và thậm chí tạo ra câu chuyện phức tạp để giải thích những khái niệm khó hiểu. Tuy nhiên, không giống như con người, LLMs không có qualia. Chúng không có bất kỳ trải nghiệm chủ quan nào, dù có thể viết ra những đoạn văn rất hay và cân đối.

Qualia là gì?

Chúc mừng bạn đã bước vào thế giới phức tạp và kỳ diệu của qualia - một khái niệm triết học dùng để mô tả những trải nghiệm chủ quan mà chỉ bạn mới có thể cảm nhận và hiểu được. Đó có thể là cảm giác khi bạn nhìn thấy màu đỏ, nghe một bản nhạc yêu thích, hoặc nếm một miếng chocolate đắng. Dùng ngôn ngữ để miêu tả những trải nghiệm này giống như cố gắng miêu tả mùi thơm cho một người chưa bao giờ ngửi gần bông hồng - có cảm giác như chẳng bao giờ đủ đầy.

Hãy tưởng tượng Thằng ẤtThằng Giáp đứng cạnh nhau trên vệ đường, nhìn vào đèn giao thông màu đỏ. Giáp nói rằng màu đỏ trông như một ngọn lửa, rất nổi bật và ấm áp. Trong khi Ất, tuy cũng gọi màu đỏ, nhưng lại có cảm giác hoàn toàn khác - có thể nhạt nhòa và lạnh lùng. Dù có cùng trải nghiệm màu đỏ, cách họ cảm nhận đã rất khác nhau. Đó chính là qualia - sự khác biệt trong trải nghiệm chủ quan của mỗi người.

qualia.png

Trải nghiệm chủ quan và mối liên hệ với LLMs

Large Language Models (LLMs) như GPT-4 rất thông minh khi nói đến việc xử lý và tạo ra ngôn ngữ. Chúng có thể trả lời câu hỏi và thậm chí tạo ra câu chuyện phức tạp để giải thích những khái niệm khó hiểu. Tuy nhiên, không giống như con người, LLMs không có qualia. Chúng không có bất kỳ trải nghiệm chủ quan nào, dù có thể viết ra những đoạn văn rất hay và cân đối.

Hãy tưởng tượng bạn hỏi một LLM về cảm giác khi bị bỏng. Nó có thể tả ra một đoạn văn rất chi tiết về sự đau đớn, sự rát nóng, và những phản ứng của cơ thể. Tuy nhiên, tất cả chỉ là những dòng văn mà nó đã được "đọc" và "học" từ hàng triệu trang sách, bài báo, và cuộc trò chuyện. Điều này không giống như cảm giác của Thằng Ất và Thằng Giáp khi nhìn màu đỏ, bởi LLM không thực sự cảm nhận được bất cứ điều gì.

Quan điểm của các nhà khoa học về hạn chế của LLMs

Yann LeCun, một trong những bộ óc vĩ đại trong nghiên cứu AI, luôn tin rằng LLM không phải là đích đến cuối cùng cho AI. Ông cho rằng, dù LLM có thể trả lời câu hỏi rất thông minh, chúng vẫn thiếu khả năng lý luận và lập kế hoạch như con người.

Ví dụ, khi bạn cần lập kế hoạch cho một chuyến đi, bạn sẽ nghĩ về mọi thứ cần chuẩn bị: Hành lý, vé, nơi ăn chốn ở, và các hoạt động muốn tham gia. Bạn không chỉ đơn thuần lập một danh sách, mà còn cân nhắc các khả năng và tình huống phát sinh. Hiện nay, với sự kết hợp của agent, tổng hợp nhiều LLM và phương pháp ReAct, AI đã có thể thực hiện việc lập kế hoạch tốt hơn. Những hệ thống này có thể đưa ra các quyết định dựa trên nhiều bước phản hồi từ môi trường và điều chỉnh hành động phù hợp.

Tuy nhiên, dù có thể tạo ra một kế hoạch rất chi tiết dựa trên những dữ liệu văn bản mà chúng học được, chúng vẫn còn thiếu hiểu biết thực sự về các tình huống phát sinh, và chưa thể hoàn toàn lường trước các vấn đề thực tế như con người. Con người thường không lập kế hoạch quá chi tiết nhưng lại có khả năng thích nghi (adapt) với các tình huống bất ngờ, điều mà AI vẫn còn hạn chế.

LeCun cho rằng để đạt được trí tuệ nhân tạo tổng quát (AGI), các hệ thống AI cần có khả năng tương tác với thế giới thực, trải nghiệm và học hỏi từ chính những tương tác đó, thay vì chỉ học từ các dữ liệu văn bản có sẵn. Điều này giống như cách mà một đứa trẻ học hỏi: Không chỉ thông qua lời nói, mà còn bằng cách thử nghiệm, sai lầm, và cảm nhận.

Fei-Fei Li, một nhà khoa học hàng đầu trong lĩnh vực AI tại Stanford, cũng chia sẻ quan điểm tương tự với Yann LeCun về những hạn chế của LLMs. Bà cho rằng LLM chỉ có thể học từ dữ liệu văn bản, nhưng không có trải nghiệm chủ quan hoặc khả năng nhận thức về thế giới xung quanh.

Hãy nghĩ về một đứa trẻ đang học cách đạp xe. Đứa trẻ đó sẽ ngã nhiều lần, cảm nhận được đau đớn khi va chạm, và cuối cùng học được cách cân bằng trên xe đạp. Đó là cả một quá trình học hỏi từ trải nghiệm thực tế. Trong khi đó, LLMs không có cơ thể vật lý để trải nghiệm. Chúng không thể cảm nhận được cái đau khi ngã hay cái gió thổi qua mặt khi đang đạp xe. Vì vậy, mặc dù chúng có thể mô tả rất chi tiết về việc đạp xe, chúng không thể hiểu việc đó theo cách mà một người đã thực sự trải nghiệm.

Fei-Fei Li cũng nhấn mạnh rằng để AI có thể tiến gần hơn đến năng lực tri thức như con người, cần phải kết hợp giữa việc học từ dữ liệu với khả năng trải nghiệm và tương tác với thế giới thực. Tuy nhiên, cần lưu ý rằng trí tuệ (intelligence)trải nghiệm chủ quan (subjective experience) là hai khái niệm khác nhau. AI có thể có trí tuệ cao, khả năng xử lý thông tin và học hỏi, nhưng điều này không đồng nghĩa với việc nó có trải nghiệm chủ quan như con người. Điều này sẽ giúp AI hiểu sâu hơn về môi trường xung quanh và phát triển các kỹ năng như lý luận, lập kế hoạch, và thậm chí là đồng cảm.

Đột phá với multimodal AI

Hiện nay, các hệ thống AI đang dần trở nên đa phương thức (multimodal), nghĩa là chúng có khả năng xử lý không chỉ văn bản mà còn cả hình ảnh, âm thanh, và các dạng dữ liệu khác. Điều này giúp AI có thể "hiểu" thế giới theo cách đa dạng hơn. Ví dụ, một mô hình AI như GPT-4 với khả năng đa phương thức có thể mô tả một bức ảnh, phân tích nội dung âm thanh, và kết hợp những thông tin này để đưa ra câu trả lời toàn diện hơn.

Tuy nhiên, dù các mô hình này có thể xử lý và mô tả nhiều dạng dữ liệu khác nhau, chúng vẫn thiếu đi phần trải nghiệm chủ quan. AI có thể "nhìn" thấy một bức ảnh, nhưng nó không thực sự cảm nhận được như cách con người làm. Ví dụ, khi AI phân tích hình ảnh của một bông hoa, nó có thể mô tả màu sắc, hình dáng và các đặc tính khác, nhưng nó không cảm nhận được hương thơm của bông hoa hay cảm giác dịu dàng khi chạm vào cánh hoa. Những trải nghiệm này vẫn là đặc quyền của con người.

Tóm lại

Large Language Models (LLMs), dù rất mạnh mẽ trong việc xử lý và mô phỏng ngôn ngữ, và hiện nay với khả năng đa phương thức (multimodal), vẫn còn rất xa để đạt được khả năng hiểu biết thực sự như con người. Những hạn chế mà Yann LeCun và Fei-Fei Li chỉ ra cho thấy rằng LLMs thiếu đi một yếu tố rất quan trọng: Trải nghiệm trực tiếp. Chúng ta không chỉ học thông qua văn bản, mà còn qua cảm nhận, thử nghiệm, và cả những sai lầm. Những trải nghiệm đó làm cho trí tuệ của con người trở nên phức tạp và đặc biệt.

AI trong tương lai cần có khả năng tương tác với thế giới thực, học hỏi từ chính những trải nghiệm đó để có thể phát triển các kỹ năng tương tự như con người. Chỉ khi đó, AI mới có thể tiến gần hơn đến việc đạt được trí tuệ nhân tạo tổng quát (AGI) và thực sự hiểu được thế giới theo cách mà chúng ta hiểu.

LLMs và các mô hình đa phương thức hiện tại có thể giúp chúng ta rất nhiều trong việc giải đáp câu hỏi và xử lý thông tin, chúng không thể thay thế cho trải nghiệm chủ quan của mỗi người. Chính những trải nghiệm đó làm cho con người trở nên độc đáo và phức tạp, vượt xa mọi mô phỏng từ máy móc./.

Đào Trung Thành, Chuyên gia tư vấn CĐS, viễn thông, CNTT