𝑎′ – будь-яка можлива дія з нового стану 𝑠′. 𝛼 це швидкість навчання (0 < α ≤ 1). 𝛾 – коефіцієнт знижки (0 ≤ γ < 1). 15 травня 2024 р.
Альфа, також відомий як швидкість навчання, є гіперпараметр, який визначає розмір кроку на кожній ітерації алгоритму градієнтного спуску. Він контролює, як швидко чи повільно алгоритм наближається до оптимального рішення. Значення альфа-версії є вирішальним, оскільки воно може значно вплинути на процес оптимізації.
Швидкість навчання, позначена символом α, становить гіперпараметр, який використовується для управління швидкістю, з якою алгоритм оновлює або вивчає значення оцінки параметра.
альфа: є швидкість навчання, яка зазвичай встановлюється між 0 і 1. Встановлення значення альфа на 0 означає, що значення Q ніколи не оновлюються, тому нічого не вивчається. Якщо ми встановимо високе значення альфа, наприклад 0,9, це означає, що навчання може відбуватися швидко. гамма: це коефіцієнт дисконтування, встановлений між 0 і 1.
Альфа (α): швидкість навчання. Він показує, наскільки наші оцінки повинні бути скориговані на основі помилки. Ця ставка коливається від 0 до 1. Гамма (γ): ставка дисконту. Це вказує на те, наскільки цінними є майбутні винагороди.
Швидкість навчання. У випадку α = 0 \alpha = 0 α=0 агент нічого не вивчає, оскільки зміни, внесені формулою оновлення, не можуть бути включені в Q-таблицю. У повністю детермінованих середовищах швидкість навчання α = 1 \alpha = 1 α=1 є оптимальною. У стохастичних середовищах це значення повинно бути нижчим.