Вибір параметра регуляризації: вибір λ (також відомий як параметр регуляризації) має вирішальне значення. Зазвичай його вибирають за допомогою перехресної перевірки, щоб збалансувати добре підібрані навчальні дані та зберегти модель достатньо простою для ефективної роботи з новими даними.14 травня 2024 р.
Як ми вибираємо параметр регуляризації? наступним чином: на навчальному наборі ми оцінюємо кілька різних регресій Ріджа з різними значеннями параметра регуляризації; на перевірочному наборі ми вибираємо найкращу модель (параметр регуляризації, який дає найнижчу MSE у наборі перевірки);
Багато інших алгоритмів машинного навчання мають параметр регуляризації, який часто називають лямбда. Лямбда – це просто число, яке додається до метрики помилки, щоб уникнути надто швидкого сходження алгоритму та перепідгонки даних навчання. Лямбда для ALS у Pyspark називається "regParam".
У дереві рішень є кілька параметрів регулярізації, які ми можемо використовувати для контролю розміру дерева рішень, наприклад: max_depth : максимальна довжина шляху від кореня до листа. min_sample_split : обмеження для зупинки подальшого розбиття вузлів, коли кількість спостережень у вузлі менше заданого значення.
Параметр лямбда контролює ступінь регуляризації, застосованої до моделі. Невід’ємне значення являє собою параметр стиснення, який множить P(α,β) в об’єкті. Чим більша лямбда, тим більше коефіцієнти скорочуються до нуля (і один до одного).
Параметр регуляризації є контроль ваших параметрів підгонки. У міру того, як величини підгоночних параметрів збільшуються, буде зростаючий штраф для функції витрат. Цей штраф залежить від квадратів параметрів, а також від величини .