Thị giác máy tính là khả năng của một máy quét mã vạch để “nhìn thấy” một loạt các sọc trong UPC. Đó cũng là cách Face ID của Apple có thể nhận dạng khuôn mặt của bạn. Về cơ bản, bất cứ khi nào máy xử lý hình ảnh đầu vào - chẳng hạn như tệp JPEG hoặc nguồn cấp dữ liệu máy ảnh - nó sử dụng thị giác máy tính để hiển thị. Cách dễ nhất để hình dung thị giác máy tính là một phần của bộ não con người đó là nó có thể xử lý thông tin mà mắt nhìn thấy chứ không chỉ đơn giản là đôi mắt.
Một trong những hữu ích của thị giác máy tính, từ quan điểm AI, đó là khả năng nhận dạng hình ảnh, nhờ đó máy có thể diễn giải thông tin nhận được từ thị giác máy tính và phân loại những thông tin nhìn thấy.
Đây là một số ví dụ về khả năng nhận dạng hình ảnh tại nơi làm việc:
- Ứng dụng Ebay cho phép bạn tìm kiếm các mục bằng sử dụng máy ảnh của mình
- Mạng thần kinh nhân tạo này biến ảnh tối thành sáng
- AI của Facebook biết rất nhiều về ảnh của bạn
- Làm thế nào về một AI có thể đọc được suy nghĩ của bạn?
Ngoài ra còn có ứng dụng, ví dụ, sử dụng máy ảnh điện thoại thông minh của bạn để xác định xem một đối tượng có phải là miếng xúc xích hay không - ứng dụng đó là Not Hotdog. Điện thoại sử dụng thị giác máy tính và nhận dạng hình ảnh để đưa ra những đánh giá. Nó có thể không ấn tượng khi một đứa trẻ nói cho bạn một vật có phải là miếng xúc xích hay không. Nhưng quá trình đào tạo mạng thần kinh nhân tạo để nhận dạng hình ảnh là khá phức tạp, cả trong bộ não con người và trong máy tính.
Ở góc độ này AI không khác gì một trẻ nhỏ. Thị giác máy tính giúp nó nhìn được, nhưng điều đó không có nghĩa nó có thể hiểu về vũ trụ vật lý. Vì vậy, AI cũng cần được huấn luyện giống như trẻ em. Nếu bạn đưa cho trẻ một số hoặc chữ cái nhiều lần, nó sẽ học được cách nhận dạng con số đó.
Đáng ngạc nhiên, nhiều trẻ mới biết đi có thể ngay lập tức nhận ra các chữ cái và số lộn ngược nếu chúng đã được học ngay từ đầu. Mạng thần kinh sinh học của chúng ta khá giỏi trong việc diễn giải thông tin trực quan ngay cả khi hình ảnh đang xử lý không giống như kỳ vọng.
Thật dễ dàng để máy tính có thể nhận diện một hình ảnh cụ thể, như mã QR, nhưng chúng sẽ gặp khó khăn khi phải nhận dạng mọi thứ ở trạng thái không được lập trình sẵn - nhận dạng hình ảnh.
Cách thức nhận dạng hình ảnh hoạt động chủ yếu liên quan đến việc tạo ra một mạng thần kinh nhân tạo xử lý các điểm ảnh riêng lẻ của một hình ảnh. Các nhà nghiên cứu cung cấp cho các mạng này nhiều hình ảnh được dán nhãn, để “dạy” cho chúng cách nhận ra các hình ảnh tương tự.
Trong ví dụ miếng miếng xúc xích ở trên, các nhà nghiên cứu đã cho AI tiếp xúc với hàng ngàn bức ảnh của miếng xúc xích. Sau đó AI hình thành ý niệm chung về hình ảnh của một miếng xúc xích. Khi bạn đưa một hình nào đó, nó sẽ so sánh các điểm ảnh của hình ảnh đó với mọi bức ảnh miếng xúc xích mà nó từng thấy. Nếu hình ảnh đáp ứng một ngưỡng tối thiểu của các điểm ảnh tương tự, AI sẽ tuyên bố đó là một miếng miếng xúc xích.
Hệ thống AI xử lý thông tin trực quan thường dựa trên thị giác máy tính và khả năng xác định các đối tượng cụ thể hoặc phân loại hình ảnh dựa trên nội dung.
Điều này cực kỳ quan trọng đối với các robot để có thể nhanh chóng, nhận dạng và phân loại chính xác các đối tượng khác nhau trong môi trường của chúng. Ví dụ, những chiếc xe không người lái, sử dụng thị giác máy tính và nhận dạng hình ảnh để xác định người đi bộ, biển báo và các phương tiện khác.