Những thuật toán học tập nào sử dụng khái niệm thưởng và phạt?

Học có giám sát, các loại thuật toán Học tăng cường và Học không giám sát là những lĩnh vực quan trọng của miền Máy học. Bắt đầu với phần giới thiệu cơ bản về Củng cố và các loại của nó, tất cả là về việc đưa ra các quyết định hoặc hành động phù hợp để tối đa hóa phần thưởng cho một điều kiện thích hợp. Nhiều mô hình phần mềm và máy sử dụng mạnh mẽ nó để có được cách tốt nhất có thể hoặc hành động trong một tình huống cụ thể

Nội dung chính Show

Các loại thuật toán học tăng cường. Và RL liên quan như thế nào với các kỹ thuật ML khác?
Các loại thuật toán học tăng cường. Làm thế nào để hình thành một vấn đề học tập tăng cường cơ bản?
Các loại thuật toán học tăng cường
Học tăng cường tích cực
Học tăng cường tiêu cực
Phương pháp tiếp cận để thực hiện thuật toán học tăng cường
Dựa trên giá trị
Dựa trên chính sách
Dựa trên mô hình
Đặc điểm & Ứng dụng của thuật toán học tăng cường
Những thách thức của việc học tăng cường
Các loại thuật toán học tăng cường. Phần kết luận
Mô hình học tập nào dựa trên phản hồi thưởng và phạt?
Một trong những điều sau đây là học tập dựa trên hình phạt thưởng phạt?
Loại thuật toán máy học nào sử dụng hệ thống học tập dựa trên phần thưởng?
Học tập dựa trên phần thưởng được gọi là gì?

Thuật toán/phương pháp, tác nhân hoặc mô hình học tăng cường học bằng cách tương tác với môi trường của nó; . Người đại diện nhận ra mà không cần hòa giải với con người bằng cách tạo ra phần thưởng lớn hơn và giảm thiểu hình phạt của anh ta. Thuật toán học tăng cường và các loại của nó hoạt động kết hợp với hệ thống thưởng & phạt

Các loại thuật toán học tăng cường. Và RL liên quan như thế nào với các kỹ thuật ML khác?

Học tăng cường là một loại kỹ thuật ML cho phép một tác nhân học hỏi trong môi trường cạnh tranh và tương tác bằng cách thử và sai bằng cách sử dụng phản hồi từ các hành động và trải nghiệm của họ

Mặc dù cả phương pháp học tăng cường và học có giám sát đều sử dụng ánh xạ giữa đầu vào và đầu ra, không giống như học có giám sát, trong đó phản hồi được cung cấp cho tác nhân là tập hợp hành động chính xác để hoàn thành nhiệm vụ, học tăng cường sử dụng phần thưởng và hình phạt làm tín hiệu cho hành vi tích cực và tiêu cực

So với học không giám sát – học tăng cường khá khác nhau về mục tiêu. Mặc dù mục tiêu của học có giám sát là tìm ra sự khác biệt và tương đồng giữa các điểm dữ liệu, nhưng trong học tăng cường, mục tiêu chính là tìm ra một mô hình hành động phù hợp để tối đa hóa tổng phần thưởng tích lũy của tác nhân. Hình dưới đây cho thấy các ý tưởng và yếu tố cơ bản liên quan đến mô hình học tăng cường

Các loại thuật toán học tăng cường. Làm thế nào để hình thành một vấn đề học tập tăng cường cơ bản?

Một số thuật ngữ chính mô tả đúng nhất các yếu tố của bài toán Học tăng cường là

Môi trường. Thế giới vật lý trong đó một đại lý hoạt động
Tiểu bang. Nó đại diện cho tình hình hiện tại của đại lý
Phần thưởng. Phản hồi từ môi trường
Giá trị. Đó là phần thưởng trong tương lai mà một đại lý sẽ nhận được bằng cách hành động ở một trạng thái cụ thể

Một vấn đề học tăng cường có thể được mô tả tốt nhất thông qua các trò chơi. Hãy lấy ví dụ về trò chơi nổi tiếng “Pacman”, trong đó mục tiêu của đặc vụ (chính là Pacman) là ăn thức ăn trong lưới đồng thời tránh những con ma trên đường đi.

Thế giới lưới là môi trường tương tác cho Pacman (đặc vụ). Pacman nhận được phần thưởng khi tiêu thụ thức ăn trong trò chơi và bị trừng phạt nếu bị ma giết (thua trò chơi). Các trạng thái ở đây là vị trí của Pacman trong thế giới lưới và tổng phần thưởng tích lũy là Pacman (đặc vụ) chiến thắng trò chơi

Để xây dựng một chính sách tối ưu, tác nhân phải đối mặt với tình thế tiến thoái lưỡng nan khi khám phá các trạng thái mới đồng thời tối đa hóa phần thưởng của nó – Điều này được gọi là sự đánh đổi của Exploration VA Exploration

Quy trình quyết định Markov (MDP) là một số khung toán học được sử dụng để mô tả môi trường trong học tăng cường, các loại thuật toán Học tăng cường & hầu hết tất cả các vấn đề về Học tăng cường có thể được chính thức hóa bằng MDP

Một MDP sở hữu một tập hợp các trạng thái môi trường hữu hạn S, một tập hợp các hành động có thể xảy ra A(s) trong mỗi trạng thái, một hàm giá trị thực R(S) & một mô hình chuyển tiếp P(s ‘, s. một). Tuy nhiên, miền thực tế có nhiều khả năng thiếu bất kỳ kiến thức nào trước đó về động lực môi trường. Các phương pháp Học tăng cường không có mô hình có ích trong các tình huống như vậy

Q-learning là một trong những cách tiếp cận không có mô hình được sử dụng phổ biến nhất có thể được sử dụng để xây dựng/tạo tác nhân tự chơi (Pacman). Nó xoay quanh việc cập nhật các giá trị Q, biểu thị giá trị của việc thực hiện hành động a ở trạng thái s. Quy tắc cập nhật giá trị là thành phần cơ bản của thuật toán Q-learning

Các loại thuật toán học tăng cường

Hai loại thuật toán hoặc phương pháp học tăng cường là

Học tăng cường tích cực

Học tăng cường tích cực được định nghĩa là một sự kiện xảy ra do hành vi cụ thể. Nó làm tăng cường độ & tần suất của hành vi & tác động tích cực đến hành động được thực hiện bởi tác nhân

Loại thuật toán hoặc phương pháp học tăng cường (RL) này giúp bạn tối đa hóa hiệu suất và duy trì thay đổi trong thời gian dài hơn. Tuy nhiên, quá nhiều Gia cố có thể gây ra trạng thái tối ưu hóa quá mức, điều này có thể ảnh hưởng đến kết quả

Học tăng cường tiêu cực

Loại thuật toán Học tăng cường này được định nghĩa là tăng cường hành vi xảy ra do một điều kiện tiêu cực đáng lẽ phải tránh hoặc dừng lại. Học tăng cường tiêu cực giúp bạn xác định tiêu chuẩn hiệu suất tối thiểu. Tuy nhiên, nhược điểm của thuật toán hoặc phương pháp này là nó cung cấp đủ để đáp ứng hành vi tối thiểu

Phương pháp tiếp cận để thực hiện thuật toán học tăng cường

Về cơ bản, có ba cách tiếp cận hoặc cách để triển khai thuật toán Học tăng cường

Dựa trên giá trị

Trong thuật toán/phương pháp Học tăng cường dựa trên giá trị (RL), bạn nên cố gắng tối đa hóa hàm giá trị V(s). Trong phương pháp này, tác nhân mong đợi lợi nhuận dài hạn của tất cả các trạng thái hiện tại theo chính sách ?

Dựa trên chính sách

Trong loại Thuật toán/phương pháp học tăng cường này, bạn cố gắng phát triển một chính sách sao cho hành động được thực hiện ở mọi trạng thái sẽ giúp bạn đạt được phần thưởng tối đa trong tương lai

Hai loại thuật toán/phương pháp dựa trên chính sách là

Phương pháp xác định. Đối với bất kỳ tiểu bang nào - hành động tương tự được tạo ra bởi chính sách ?
phương pháp ngẫu nhiên. Mọi hành động đều có một khả năng riêng biệt, được xác định bởi phương trình sau

Dựa trên mô hình

Trong loại thuật toán/phương pháp Học tăng cường này, bạn cần tạo một mô hình ảo cho từng môi trường. Tác nhân học cách thực hiện các tác vụ cụ thể trong môi trường cụ thể đó

Đặc điểm & Ứng dụng của thuật toán học tăng cường

Khi bạn cần hiểu loại tình huống nào cần một hành động khi bạn muốn khám phá – hành động nào tạo ra số phần thưởng tối đa trong một khoảng thời gian dài, bạn có thể cần đến các thuật toán và phương pháp học tăng cường

Ngoài ra, để có được tác nhân học tập và chức năng phần thưởng cũng như ước tính phương pháp hoặc quy trình khả thi khi bạn muốn nhận phần thưởng lớn nhất, các thuật toán học tăng cường đóng một vai trò quan trọng

Với số lượng đặc biệt này, các loại thuật toán học tăng cường thể hiện các đặc điểm sau

Loại trừ với người giám sát và chỉ sở hữu một số thực hoặc tín hiệu phần thưởng
Ra quyết định phù hợp theo thứ tự tuần tự
Phần thưởng cho mỗi & mọi loại hành động trong các bài toán củng cố
Phản hồi chậm trễ cho các hành động
Để xác định dữ liệu thành công theo hành động của đại lý

Học tăng cường và các loại thuật toán học tăng cường có nhiều ứng dụng dựa trên phần thưởng hoặc trải nghiệm hành động

Học máy & xử lý dữ liệu
Robotics cho tự động hóa công nghiệp
Tạo hệ thống đào tạo cho hướng dẫn tùy chỉnh
Các khía cạnh khác nhau của tài liệu cho yêu cầu của sinh viên
Hoạch định & hoạch định chiến lược cho doanh nghiệp
Điều khiển máy bay & chuyển động của robot

Tại sao sử dụng học tăng cường?

Một số lý do chính để sử dụng thuật toán Học tăng cường là

Nó giúp bạn khám phá lĩnh vực hành động nào có phần thưởng cao nhất trong thời gian dài hơn
Học tăng cường giúp bạn tìm ra tình huống nào cần hành động
Nó cũng cung cấp cho tác nhân học tập chức năng phần thưởng

Những thách thức của việc học tăng cường

Một trong những thách thức lớn nhất trong học tăng cường nằm ở việc chuẩn bị môi trường mô phỏng, điều này phụ thuộc nhiều vào nhiệm vụ được thực hiện. Khi mô hình phải trở nên siêu phàm trong các trò chơi Cờ vua, Cờ vây hoặc Atari, việc chuẩn bị môi trường mô phỏng tương đối đơn giản

Khi nói đến một mẫu xe có khả năng tự lái, việc xây dựng một mô phỏng thực tế là rất quan trọng trước khi cho xe chạy trên đường phố. Mô hình Học tăng cường phải tìm ra cách phanh hoặc tránh va chạm trong một môi trường an toàn, nơi hy sinh cả trăm chiếc ô tô với chi phí tối thiểu

Chuyển mô hình ra khỏi môi trường đào tạo và vào thế giới thực là nơi mọi thứ trở nên khó khăn. Mở rộng quy mô và điều chỉnh mạng thần kinh kiểm soát tác nhân là một thách thức lớn khác. Không có cách nào để giao tiếp với mạng ngoài thông qua hệ thống thưởng và phạt

Một thách thức lớn khác là đạt được mức tối ưu cục bộ – nghĩa là tác nhân thực hiện nhiệm vụ như nó vốn có, nhưng không theo cách được yêu cầu. Một “vận động viên nhảy cầu” nhảy như một con kangaroo thay vì làm những gì được dự đoán trước - đi bộ là một ví dụ tuyệt vời

Các loại thuật toán học tăng cường. Phần kết luận

Trong bài đăng này, chúng tôi đã cố gắng giải thích khái niệm cơ bản của thuật toán Học tăng cường và các loại của nó. Ngày nay cốt thép đã trở thành một lĩnh vực tuyệt vời để khám phá và học hỏi. Nhiều phát triển quan trọng đã được thực hiện trong lĩnh vực này và nhiều hơn nữa sẽ đến trong tương lai sắp tới

Yếu tố phân biệt quan trọng của các loại thuật toán Học tăng cường là cách tác nhân được đào tạo. Thay vì kiểm tra dữ liệu, mô hình/phương pháp Học tăng cường (RL) tương tác với môi trường, tìm cách tối đa hóa 'phần thưởng'. ' Trong trường hợp Học tăng cường sâu, mạng nơ-ron chịu trách nhiệm lưu trữ các trải nghiệm và do đó cải thiện cách thức thực hiện nhiệm vụ

Học tăng cường (RL) chắc chắn là công nghệ tiên tiến có tiềm năng lớn để biến đổi thế giới của chúng ta. Tuy nhiên, công nghệ này là cần thiết để được sử dụng trong mọi trường hợp. Tuy nhiên, Học tăng cường dường như là cách có khả năng nhất để làm cho máy trở nên sáng tạo hơn

Mô hình học tập nào dựa trên phản hồi thưởng và phạt?

Học tăng cường là một phương pháp đào tạo máy học dựa trên việc khen thưởng các hành vi mong muốn và/hoặc trừng phạt những hành vi không mong muốn. Nói chung, một tác nhân học tăng cường có thể nhận thức và giải thích môi trường của nó, thực hiện các hành động và học hỏi thông qua thử và sai.