Google cải thiện việc đào tạo mô hình AI bằng mã nguồn mở

Học tăng cường (Reinforcement Learning) đã được sử dụng cho một số AI ấn tượng nhất cho đến nay, bao gồm cả những AI đã đánh bại game thủ chuyên nghiệp của Alpha Go và Dota 2. Công ty con của Google, DeepMind, sử dụng nó cho Deep Q-Network (DQN).

Xây dựng một khuôn khổ học tăng cường cần thời gian và nguồn lực đáng kể. Để cho AI đạt được tiềm năng đầy đủ, học tăng cường cần phải trở nên dễ tiếp cận hơn.

Bắt đầu từ hôm tư vừa rồi, Google để một khung phần mềm học tăng cường nguồn mở dựa trên TensorFlow - thư viện học máy của Google - có sẵn trên GitHub.

Pablo Samuel Castro và Marc G. Bellemare, các nhà nghiên cứu của Google Brain, viết trong một bài đăng trên blog:

“Lấy cảm hứng từ một trong những thành phần chính trong hành vi có động lực từ phần thưởng trong não và phản ánh mối liên hệ lịch sử mạnh mẽ giữa khoa học thần kinh và nghiên cứu học tập tăng cường, nền tảng này nhằm mục đích cho phép nghiên cứu suy lí luận có thể thúc đẩy những khám phá căn bản.

Bản phát hành này cũng bao gồm một bộ đính kèm làm rõ cách sử dụng khung phần mềm của chúng tôi. ”

Khung phần mềm của Google được thiết kế với ba trọng tâm: tính linh hoạt, tính ổn định và khả năng tái tạo.

Công ty cung cấp 15 ví dụ mã cho Arcade Learning Environment- một nền tảng sử dụng các trò chơi video để đánh giá hiệu suất của công nghệ AI - cùng với bốn mô hình học máy khác nhau: C51, DQN, Implicit Quantile Network, và Rainbow.

Học tăng cường là một trong những phương pháp đào tạo hiệu quả nhất. Nếu bạn đang huấn luyện một chú chó, đưa ra phần thưởng khi chú chó thực hiện điều bạn yêu cầu là một ví dụ chính về tăng cường tích cực trong thực tế.

Đào tạo máy tính là một khái niệm tương tự, chỉ khác là những phần thưởng được phân phối hoặc giữ lại như thay vì là vật chất.

“Chúng tôi hy vọng rằng tính linh hoạt và dễ sử dụng của khung phần mềm sẽ giúp các nhà nghiên cứu thử nghiệm các ý tưởng mới”, Bellemare và Castro viết. "Chúng tôi đã tích cực sử dụng nó cho nghiên cứu của mình và nhận thấy nó cho chúng ta sự linh hoạt để thực hiện nhanh chóng nhiều ý tưởng."