Học có giám sát, các loại thuật toán Học tăng cường và Học không giám sát là những lĩnh vực quan trọng của miền Máy học. Bắt đầu với phần giới thiệu cơ bản về Củng cố và các loại của nó, tất cả là về việc đưa ra các quyết định hoặc hành động phù hợp để tối đa hóa phần thưởng cho một điều kiện thích hợp. Nhiều mô hình phần mềm và máy sử dụng mạnh mẽ nó để có được cách tốt nhất có thể hoặc hành động trong một tình huống cụ thể Show
Thuật toán/phương pháp, tác nhân hoặc mô hình học tăng cường học bằng cách tương tác với môi trường của nó; . Người đại diện nhận ra mà không cần hòa giải với con người bằng cách tạo ra phần thưởng lớn hơn và giảm thiểu hình phạt của anh ta. Thuật toán học tăng cường và các loại của nó hoạt động kết hợp với hệ thống thưởng & phạt Các loại thuật toán học tăng cường. Và RL liên quan như thế nào với các kỹ thuật ML khác?Học tăng cường là một loại kỹ thuật ML cho phép một tác nhân học hỏi trong môi trường cạnh tranh và tương tác bằng cách thử và sai bằng cách sử dụng phản hồi từ các hành động và trải nghiệm của họ Mặc dù cả phương pháp học tăng cường và học có giám sát đều sử dụng ánh xạ giữa đầu vào và đầu ra, không giống như học có giám sát, trong đó phản hồi được cung cấp cho tác nhân là tập hợp hành động chính xác để hoàn thành nhiệm vụ, học tăng cường sử dụng phần thưởng và hình phạt làm tín hiệu cho hành vi tích cực và tiêu cực So với học không giám sát – học tăng cường khá khác nhau về mục tiêu. Mặc dù mục tiêu của học có giám sát là tìm ra sự khác biệt và tương đồng giữa các điểm dữ liệu, nhưng trong học tăng cường, mục tiêu chính là tìm ra một mô hình hành động phù hợp để tối đa hóa tổng phần thưởng tích lũy của tác nhân. Hình dưới đây cho thấy các ý tưởng và yếu tố cơ bản liên quan đến mô hình học tăng cường Các loại thuật toán học tăng cường. Làm thế nào để hình thành một vấn đề học tập tăng cường cơ bản?Một số thuật ngữ chính mô tả đúng nhất các yếu tố của bài toán Học tăng cường là
Một vấn đề học tăng cường có thể được mô tả tốt nhất thông qua các trò chơi. Hãy lấy ví dụ về trò chơi nổi tiếng “Pacman”, trong đó mục tiêu của đặc vụ (chính là Pacman) là ăn thức ăn trong lưới đồng thời tránh những con ma trên đường đi. Thế giới lưới là môi trường tương tác cho Pacman (đặc vụ). Pacman nhận được phần thưởng khi tiêu thụ thức ăn trong trò chơi và bị trừng phạt nếu bị ma giết (thua trò chơi). Các trạng thái ở đây là vị trí của Pacman trong thế giới lưới và tổng phần thưởng tích lũy là Pacman (đặc vụ) chiến thắng trò chơi Để xây dựng một chính sách tối ưu, tác nhân phải đối mặt với tình thế tiến thoái lưỡng nan khi khám phá các trạng thái mới đồng thời tối đa hóa phần thưởng của nó – Điều này được gọi là sự đánh đổi của Exploration VA Exploration Quy trình quyết định Markov (MDP) là một số khung toán học được sử dụng để mô tả môi trường trong học tăng cường, các loại thuật toán Học tăng cường & hầu hết tất cả các vấn đề về Học tăng cường có thể được chính thức hóa bằng MDP Một MDP sở hữu một tập hợp các trạng thái môi trường hữu hạn S, một tập hợp các hành động có thể xảy ra A(s) trong mỗi trạng thái, một hàm giá trị thực R(S) & một mô hình chuyển tiếp P(s ‘, s. một). Tuy nhiên, miền thực tế có nhiều khả năng thiếu bất kỳ kiến thức nào trước đó về động lực môi trường. Các phương pháp Học tăng cường không có mô hình có ích trong các tình huống như vậy Q-learning là một trong những cách tiếp cận không có mô hình được sử dụng phổ biến nhất có thể được sử dụng để xây dựng/tạo tác nhân tự chơi (Pacman). Nó xoay quanh việc cập nhật các giá trị Q, biểu thị giá trị của việc thực hiện hành động a ở trạng thái s. Quy tắc cập nhật giá trị là thành phần cơ bản của thuật toán Q-learning Các loại thuật toán học tăng cườngHai loại thuật toán hoặc phương pháp học tăng cường là Học tăng cường tích cựcHọc tăng cường tích cực được định nghĩa là một sự kiện xảy ra do hành vi cụ thể. Nó làm tăng cường độ & tần suất của hành vi & tác động tích cực đến hành động được thực hiện bởi tác nhân Loại thuật toán hoặc phương pháp học tăng cường (RL) này giúp bạn tối đa hóa hiệu suất và duy trì thay đổi trong thời gian dài hơn. Tuy nhiên, quá nhiều Gia cố có thể gây ra trạng thái tối ưu hóa quá mức, điều này có thể ảnh hưởng đến kết quả Học tăng cường tiêu cựcLoại thuật toán Học tăng cường này được định nghĩa là tăng cường hành vi xảy ra do một điều kiện tiêu cực đáng lẽ phải tránh hoặc dừng lại. Học tăng cường tiêu cực giúp bạn xác định tiêu chuẩn hiệu suất tối thiểu. Tuy nhiên, nhược điểm của thuật toán hoặc phương pháp này là nó cung cấp đủ để đáp ứng hành vi tối thiểu Phương pháp tiếp cận để thực hiện thuật toán học tăng cườngVề cơ bản, có ba cách tiếp cận hoặc cách để triển khai thuật toán Học tăng cường Dựa trên giá trịTrong thuật toán/phương pháp Học tăng cường dựa trên giá trị (RL), bạn nên cố gắng tối đa hóa hàm giá trị V(s). Trong phương pháp này, tác nhân mong đợi lợi nhuận dài hạn của tất cả các trạng thái hiện tại theo chính sách ? Dựa trên chính sáchTrong loại Thuật toán/phương pháp học tăng cường này, bạn cố gắng phát triển một chính sách sao cho hành động được thực hiện ở mọi trạng thái sẽ giúp bạn đạt được phần thưởng tối đa trong tương lai Hai loại thuật toán/phương pháp dựa trên chính sách là
Dựa trên mô hìnhTrong loại thuật toán/phương pháp Học tăng cường này, bạn cần tạo một mô hình ảo cho từng môi trường. Tác nhân học cách thực hiện các tác vụ cụ thể trong môi trường cụ thể đó Đặc điểm & Ứng dụng của thuật toán học tăng cườngKhi bạn cần hiểu loại tình huống nào cần một hành động khi bạn muốn khám phá – hành động nào tạo ra số phần thưởng tối đa trong một khoảng thời gian dài, bạn có thể cần đến các thuật toán và phương pháp học tăng cường Ngoài ra, để có được tác nhân học tập và chức năng phần thưởng cũng như ước tính phương pháp hoặc quy trình khả thi khi bạn muốn nhận phần thưởng lớn nhất, các thuật toán học tăng cường đóng một vai trò quan trọng Với số lượng đặc biệt này, các loại thuật toán học tăng cường thể hiện các đặc điểm sau
Học tăng cường và các loại thuật toán học tăng cường có nhiều ứng dụng dựa trên phần thưởng hoặc trải nghiệm hành động
Tại sao sử dụng học tăng cường? Một số lý do chính để sử dụng thuật toán Học tăng cường là
Những thách thức của việc học tăng cườngMột trong những thách thức lớn nhất trong học tăng cường nằm ở việc chuẩn bị môi trường mô phỏng, điều này phụ thuộc nhiều vào nhiệm vụ được thực hiện. Khi mô hình phải trở nên siêu phàm trong các trò chơi Cờ vua, Cờ vây hoặc Atari, việc chuẩn bị môi trường mô phỏng tương đối đơn giản Khi nói đến một mẫu xe có khả năng tự lái, việc xây dựng một mô phỏng thực tế là rất quan trọng trước khi cho xe chạy trên đường phố. Mô hình Học tăng cường phải tìm ra cách phanh hoặc tránh va chạm trong một môi trường an toàn, nơi hy sinh cả trăm chiếc ô tô với chi phí tối thiểu Chuyển mô hình ra khỏi môi trường đào tạo và vào thế giới thực là nơi mọi thứ trở nên khó khăn. Mở rộng quy mô và điều chỉnh mạng thần kinh kiểm soát tác nhân là một thách thức lớn khác. Không có cách nào để giao tiếp với mạng ngoài thông qua hệ thống thưởng và phạt Một thách thức lớn khác là đạt được mức tối ưu cục bộ – nghĩa là tác nhân thực hiện nhiệm vụ như nó vốn có, nhưng không theo cách được yêu cầu. Một “vận động viên nhảy cầu” nhảy như một con kangaroo thay vì làm những gì được dự đoán trước - đi bộ là một ví dụ tuyệt vời Các loại thuật toán học tăng cường. Phần kết luậnTrong bài đăng này, chúng tôi đã cố gắng giải thích khái niệm cơ bản của thuật toán Học tăng cường và các loại của nó. Ngày nay cốt thép đã trở thành một lĩnh vực tuyệt vời để khám phá và học hỏi. Nhiều phát triển quan trọng đã được thực hiện trong lĩnh vực này và nhiều hơn nữa sẽ đến trong tương lai sắp tới Yếu tố phân biệt quan trọng của các loại thuật toán Học tăng cường là cách tác nhân được đào tạo. Thay vì kiểm tra dữ liệu, mô hình/phương pháp Học tăng cường (RL) tương tác với môi trường, tìm cách tối đa hóa 'phần thưởng'. ' Trong trường hợp Học tăng cường sâu, mạng nơ-ron chịu trách nhiệm lưu trữ các trải nghiệm và do đó cải thiện cách thức thực hiện nhiệm vụ Học tăng cường (RL) chắc chắn là công nghệ tiên tiến có tiềm năng lớn để biến đổi thế giới của chúng ta. Tuy nhiên, công nghệ này là cần thiết để được sử dụng trong mọi trường hợp. Tuy nhiên, Học tăng cường dường như là cách có khả năng nhất để làm cho máy trở nên sáng tạo hơn Mô hình học tập nào dựa trên phản hồi thưởng và phạt?Học tăng cường là một phương pháp đào tạo máy học dựa trên việc khen thưởng các hành vi mong muốn và/hoặc trừng phạt những hành vi không mong muốn. Nói chung, một tác nhân học tăng cường có thể nhận thức và giải thích môi trường của nó, thực hiện các hành động và học hỏi thông qua thử và sai.
Một trong những điều sau đây là học tập dựa trên hình phạt thưởng phạt?6. Trong việc học nào sau đây người thầy có thưởng phạt người học? . Học tăng cường là kiểu học mà giáo viên thưởng hoặc phạt học viên.
Loại thuật toán máy học nào sử dụng hệ thống học tập dựa trên phần thưởng?Học tăng cường
.
Học tập dựa trên phần thưởng được gọi là gì?Học có thưởng là một loại học tăng cường . |