Sự khác biệt giữa học sâu và học tập tăng cường là gì?

Ngọc Huyền, Trương Khánh Hợp| 25/10/2018 20:39
Theo dõi ICTVietnam trên

Cả học sâu và học tăng cường đều là các chức năng học máy, từ đó là một phần của một bộ công cụ thông minh nhân tạo rộng hơn.

Các công nghệ tiên tiến khác nhau dưới sự bảo trợ của trí tuệ nhân tạo đang nhận được rất nhiều sự chú ý trong thời gian gần đây. Khi lượng dữ liệu mà chúng ta đã tạo ra tiếp tục tăng lên đến mức độ chóng mặt, sự trưởng thành của trí tuệ nhận tạo và các vấn đề tiềm ẩn mà trí tuệ nhân tạo có thể giúp giải quyết phát triển ngay cùng với nó. Dữ liệu này và sức mạnh tính toán tuyệt vời hiện có sẵn với chi phí hợp lý là những gì thúc đẩy sự phát triển to lớn trong công nghệ trí tuệ nhân tạo và giúp học tập và học tăng cường trở nên khả dụng. Với những thay đổi nhanh chóng trong ngành công nghiệp trí tuệ nhân tạo, có thể rất khó để theo kịp với các công nghệ tiên tiến nhất. Trong bài viết này, tôi muốn cung cấp các định nghĩa dễ hiểu về học sâu và học tăng cường để người đọc có thể hiểu được sự khác biệt.

Cả học sâu và học tăng cường đều là các chức năng học máy, từ đó là một phần của một bộ công cụ thông minh nhân tạo rộng hơn. Điều làm cho việc học sâu và học tăng cường trở nên thú vị là chúng cho phép một máy tính tự phát triển các quy tắc để giải quyết các vấn đề. Khả năng học hỏi này không có gì mới mẻ đối với máy tính - nhưng cho đến gần đây, chúng ta mới có dữ liệu và khả năng tính toán để biến nó trở thành công cụ hàng ngày.

Học sâu là gì?

Học tập sâu về cơ bản là một hệ thống tự trị, tự học, trong đó người dùng sử dụng dữ liệu hiện có để đào tạo các thuật toán để tìm các mẫu và sau đó sử dụng nó để đưa ra các dự đoán về dữ liệu mới. Ví dụ, người dùng có thể đào tạo một thuật toán học tập sâu để nhận ra một con mèo trên một bức ảnh. Người dùng sẽ làm điều đó bằng cách cung cấp cho máy tính hàng triệu hình ảnh có chứa mèo và không chứa mèo. Sau đó, chương trình sẽ thiết lập các mẫu bằng cách phân loại và phân cụm dữ liệu hình ảnh (ví dụ: cạnh, hình dạng, màu sắc, khoảng cách giữa các hình dạng, v.v.). Những mẫu này sau đó sẽ thông báo cho một mô hình dự đoán có thể xem xét một bộ hình ảnh mới và dự đoán liệu chúng có chứa mèo hay không, dựa trên mô hình mà nó đã tạo ra bằng cách sử dụng dữ liệu huấn luyện.

Các thuật toán học tập sâu làm được điều này thông qua các lớp mạng nơron nhân tạo khác nhau bắt chước mạng nơ-ron trong não của chúng ta. Điều này cho phép thuật toán thực hiện các chu kỳ khác nhau để thu hẹp các mẫu và cải thiện các dự đoán với mỗi chu kỳ.

Một ví dụ tuyệt vời về học tập sâu trong thực tế là Face ID của Apple. Khi thiết lập điện thoại của bạn, bạn đào tạo thuật toán bằng cách quét khuôn mặt của bạn. Mỗi lần bạn đăng nhập bằng cách sử dụng ví dụ: Face ID, máy ảnh TrueDepth chụp hàng ngàn điểm dữ liệu tạo bản đồ độ sâu khuôn mặt của bạn và công cụ thần kinh sẵn có của điện thoại sẽ thực hiện phân tích để dự đoán bạn có đang ở đó hay không.

Học tăng cường là gì?

Học tăng cường là một hệ thống tự học, tự học về cơ bản bằng những phép thử và sai. Nó thực hiện các hành động với mục đích tối đa hóa phần thưởng, hay nói cách khác, nó đang học bằng cách làm để đạt được kết quả tốt nhất. Điều này tương tự như cách chúng ta học những thứ như đi xe đạp, lúc đầu chúng ta bị ngã rất nhiều và di chuyển quá chậm và thường không chắc chắn, nhưng theo thời gian, chúng ta sử dụng phản hồi về những gì mang lại hiệu quả và những gì không mang lại hiểu quả để điều chỉnh hành động đi xe đạp. Điều tương tự cũng đúng khi các máy tính sử dụng học tăng cường, chúng thử các hành động khác nhau, tìm hiểu từ phản hồi cho dù hành động đó có mang lại kết quả tốt hơn hay không, và sau đó củng cố các hành động đã làm việc, tức là làm lại và sửa đổi các thuật toán của nó một cách tự động qua nhiều lần lặp mang lại kết quả tốt nhất.

Một ví dụ điển hình về việc sử dụng học tăng cường là một robot học cách đi bộ. Người máy đầu tiên thử một bước tiến lớn và ngã xuống. Kết quả của việc ngã với bước lớn đó là một điểm dữ liệu mà hệ thống học tăng cường đáp ứng. Vì phản hồi là âm, sự ngã, hệ thống sẽ điều chỉnh hành động để thử một bước nhỏ hơn. Robot có thể di chuyển về phía trước. Đây là một ví dụ về học tăng cường trong hành động.

Một trong những ví dụ hấp dẫn nhất về học tăng cường trong hành động mà tôi đã thấy là khi Deep Mind của Google áp dụng công cụ này cho các trò chơi máy tính Atari cổ điển như Break Out. Mục tiêu (hoặc phần thưởng) là để tối đa hóa điểm số với các hành động là việc di chuyển thanh ở dưới cùng của màn hình để trả đẩy bóng lên để phá vỡ các viên gạch ở phía trên cùng của màn hình. Ngay từ đầu, thuật toán đang thực hiện rất nhiều sai lầm nhưng nhanh chóng cải thiện đến một giai đoạn mà nó sẽ đánh bại ngay cả những người chơi tốt nhất.

Sự khác biệt giữa học sâu và học tăng cường

Học sâu và học tăng cường đều là hai hệ thống học tự chủ. Sự khác biệt giữa chúng là việc học sâu là học từ một tập huấn luyện và sau đó áp dụng việc học đó vào tập dữ liệu mới, trong khi học tăng cường là tự động học bằng cách điều chỉnh các hành động dựa trên phản hồi liên tục để tối đa hóa phần thưởng

Học sâu và học tăng cường không loại trừ lẫn nhau. Trong thực tế, người dùng có thể sử dụng học sâu trong một hệ thống học tăng cường, được gọi là học tăng cường sâu và sẽ là một chủ đề tôi đề cập trong một bài đăng khác.

Nổi bật Tạp chí Thông tin & Truyền thông
Đừng bỏ lỡ
Sự khác biệt giữa học sâu và học tập tăng cường là gì?
POWERED BY ONECMS - A PRODUCT OF NEKO