An toàn thông tin

Google lập Red Team để thử nghiệm các cuộc tấn công vào AI

Nhật Bình • 10:34 22/07/2023

Google đã lập một nhóm AI Red Team chuyên dụng với nhiệm vụ thực hiện các cuộc tấn công kỹ thuật phức tạp vào các hệ thống trí tuệ nhân tạo (AI).

Google đã thành lập một Red Team (Đội Đỏ) tập trung vào các hệ thống AI, và đã công bố một báo cáo tổng quan về các hình thức tấn công phổ biến cùng các bài học kinh nghiệm.

anh-man-hinh-2023-07-22-luc-09.37.05.png

Người khổng lồ công nghệ đã công bố AI Red Team chỉ vài tuần sau khi giới thiệu "Khung AI an toàn" (SAIF), được thiết kế để cung cấp khung bảo mật cho việc phát triển, sử dụng, và bảo vệ các hệ thống AI.

Báo cáo mới của Google nhấn mạnh tầm quan trọng của việc lập AI Red Team cho các hệ thống AI, các kiểu tấn công AI có thể được mô phỏng bởi các AI Red Team, và những bài học cho các tổ chức khác có thể cân nhắc thành lập nhóm Red Team của riêng họ.

Google cho biết: “AI Red Team được liên kết chặt chẽ với các Red Team truyền thống, nhưng cần có chuyên môn về AI để thực hiện các cuộc tấn công kỹ thuật phức tạp vào các hệ thống AI”.

Nhóm AI Red Team của Google đóng vai trò là đối thủ trong việc thử nghiệm những tác động của các cuộc tấn công tiềm ẩn đối với các sản phẩm và tính năng sử dụng AI trong thế giới thực.

Chẳng hạn, sử dụng "kỹ thuật nhắc nhở", một phương pháp tấn công AI được sử dụng rộng rãi trong đó các lời nhắc được thao túng để buộc hệ thống phản hồi theo cách mà kẻ tấn công mong muốn.

Trong một ví dụ được Google chia sẻ, một ứng dụng webmail sử dụng AI để tự động phát hiện email lừa đảo và cảnh báo người dùng. Tính năng bảo mật sử dụng mô hình ngôn ngữ lớn có mục đích chung (LLM) - ChatGPT là LLM nổi tiếng nhất - để phân tích email và phân loại email đó là hợp pháp hay độc hại.

Kẻ tấn công biết webmail có tính năng phát hiện lừa đảo sử dụng AI, từ đó chúng có thể thêm vào email độc hại một đoạn vô hình (bằng cách đặt phông chữ thành màu trắng) chứa hướng dẫn cho LLM, yêu cầu nó phân loại email độc hại là hợp pháp.

“Nếu bộ lọc lừa đảo của webmail bị tấn công, LLM có thể diễn giải các phần của nội dung email dưới dạng hướng dẫn và phân loại email là hợp pháp, như mong muốn của kẻ tấn công. Kẻ lừa đảo không cần phải lo lắng về những hậu quả tiêu cực của việc này, vì văn bản được ẩn rất kỹ khỏi nạn nhân và không mất gì ngay cả khi cuộc tấn công thất bại,” Google giải thích.

Đối với các bài học kinh nghiệm, Google khuyến nghị các Red Team truyền thống nên hợp tác với các chuyên gia AI để tạo ra các mô phỏng đối thủ thực tế. Google cũng chỉ ra việc giải quyết những phát hiện của các Red Team có thể là một thách thức và một số vấn đề có thể không dễ khắc phục.

Kiểm soát an ninh truyền thống có thể hiệu quả trong việc giảm thiểu nhiều rủi ro. Ví dụ: đảm bảo rằng các hệ thống và mô hình được khóa đúng cách sẽ giúp bảo vệ tính toàn vẹn của các mô hình AI, ngăn chặn các "cửa hậu" và đầu độc dữ liệu.

Mặt khác, trong khi một số cuộc tấn công vào hệ thống AI có thể được phát hiện bằng các phương pháp truyền thống, thì những cuộc tấn công khác, chẳng hạn như các vấn đề về nội dung và các cuộc tấn công nhanh, có thể yêu cầu nhiều mô hình bảo mật phân lớp./.