Các lập trình viên dạy trí tuệ nhân tạo cách vẽ chân dung dựa trên mô tả bằng chữ

Ngọc Ánh, Phạm Thu Trang| 09/08/2018 20:01
Theo dõi ICTVietnam trên

Lập trình viên Animesh Kanewar muốn biết cách nhân vật được mô tả trong sách sẽ như thế nào ngoài đời thật, vậy nên anh nhờ đến trí tuệ nhân tạo để xem liệu chúng có thể vẽ được những nhân vật tưởng tượng này không. Mang tên T2F, dự án sử dụng một một mạng lưới đối kháng tướng (generative adversarial network GAN) để để mã hóa văn bản và tổng hợp hình ảnh khuôn mặt.

Kết quả hình ảnh cho Programmer trains artificial intelligence to draw faces from text descriptions

Nói đơn giản, một GAN bao gồm hai mạng thần kinh tranh luận với nhau để cho ra kết quả tốt nhất. Ví dụ, mạng số 1 sẽ đánh lừa mạng số 2 rằng bức ảnh vẽ này là ảnh chụp thật trong khi mạng số 2 sẽ chứng minh rằng bức ảnh vừa rồi chỉ là ảnh vẽ. Quá trình lặp lại này sẽ diễn ra tới khi mạng số 2 bị lừa.

Kanewar bắt đầu dự án với một tập dữ liệu mang tên Face2Text được cung cấp bởi các nhà nghiên cứu tại Đại học Copenhagen, bao gồm mô tả bằng ngôn ngữ của hơn 400 bức ảnh ngẫu nhiên.

Mô tả đã được lọc để loại bỏ những chú thích không liên quan đến những người trong bức ảnh, Một vài mô tả không chỉ nêu ra những đặc điểm khuôn mặt, mà còn cung cấp những thông tin thêm về bức ảnh nữa.

Trong khi kết quả của dự án T2F chưa được giống thật lắm, đó vẫn là một khởi đầu.

Công nghệ để huấn luyện GAN được gọi là "Quá trình Phát triển GAN", cải thiện chất lượng và độ ổn định theo thời gian. Trong ảnh minh họa, ảnh được tạo ra với độ phân giải cực thấp. Nhiều lớp mới dần được chuyển thành các khối, cải thiện các chi tiết trong quá trình học hỏi.

Trong một ví dụ, một người phụ nữ gần 30 tuổi với tóc nâu, khuôn mặt dịu dàng không trang điểm được miêu tả. Cô ta rất giản dị và thư thái. Một mô tả khác về một người đàn ông 40 tuổi với khuôn mặt dài, mũi nhô lên, mắt nâu và râu ngắn. Mặc dù các kết quả vẫn ở độ phân giải kém, bức vẽ cuối cùng cho thấy sự tiến bộ vượt bậc của A.I.

Karnewar nói rằng ông lên kế hoạch sẽ nâng tầm dự án để tiếp cận được với những tập dữ liệu lớn hơn như Flicker8K và Coco. Cuối cùng, T2F có thể sẽ được sử dụng cho lực lượng hành pháp để định dạng nạn nhân hoặc phạm nhân dựa trên miêu tả.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Các lập trình viên dạy trí tuệ nhân tạo cách vẽ chân dung dựa trên mô tả bằng chữ
POWERED BY ONECMS - A PRODUCT OF NEKO