В чём состоит вероятностный смысл регуляризации?

Question

В чём состоит вероятностный смысл регуляризации?

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Вероятностный смысл регуляризации заключается в интерпретации её как априорного распределения (prior) на параметры модели (веса) в рамках байесовского подхода к машинному обучению.

В байесовской линейной регрессии мы ищем не просто точечные оценки весов w, а их апостериорное распределение P(w | X, y). По теореме Байеса:

P(w | X, y) ∝ P(y | X, w) * P(w)

Где:

P(y | X, w) — правдоподобие (likelihood), которое определяется функцией потерь (например, MSE для нормального шума).
P(w) — априорное распределение на веса, которое выражает наши убеждения о них до наблюдения данных.

Максимизация апостериорного правдоподобия (MAP) приводит к задаче минимизации, которая в точности соответствует задаче регуляризации:

argmin_w [ Loss(y, Xw) + λ * Penalty(w) ]

Соответствие типов регуляризации и априорных распределений:

L2-регуляризация (Ridge Regression):
- Априор: Гауссовское (нормальное) распределение с нулевым средним и дисперсией, контролируемой параметром λ.
- P(w) ~ N(0, 1/λ * I)
- Смысл: Мы априори считаем, что все веса скорее малы и близки к нулю, но ненулевые. Это стабилизирует решение, борется с мультиколлинеарностью.
L1-регуляризация (Lasso Regression):
- Априор: Распределение Лапласа с нулевым средним.
- P(w) ~ Laplace(0, 1/λ)
- Смысл: Это распределение имеет более тяжёлые «хвосты» и пик в нуле. Оно сильнее «штрафует» малые веса, обнуляя некоторые из них, что приводит к разреженным решениям (отбору признаков).
Elastic Net: Соответствует априорному распределению, являющемуся компромиссом между Лапласом и Гауссом.

Практический вывод: Выбор типа регуляризации — это выбор наших априорных предположений о том, как должны выглядеть «хорошие» параметры модели. L2 подходит, когда мы ожидаем, что все признаки вносят небольшой вклад, а L1 — когда мы подозреваем, что лишь небольшое подмножество признаков действительно важно.

Ответ 18+ 🔞

Э, слушай, вот объясню тебе на пальцах, без всей этой академической зауми. Регуляризация — это, по сути, наш такой предрассудок про веса модели, который мы в неё вшиваем, пока она ещё нихуя не знает про данные. Представь, что ты байесовский колдун.

Вот есть у нас формула, по которой мы ищем лучшие веса w. По Байесу это выглядит так:

P(w | X, y) ∝ P(y | X, w) * P(w)

То есть, чтобы понять, какие веса w крутые после того, как мы увидели данные (X, y), мы смотрим на две штуки:

P(y | X, w) — насколько модель вообще способна объяснить эти данные (правдоподобие). Если ошибка большая — это пиздец, плохо.
P(w) — а это и есть наш предрассудок, или "априор". Какие веса мы считаем нормальными априори, ещё до обучения. Вот это и есть регуляризация, ёпта!

Когда мы пытаемся найти веса, которые максимизируют это всё (MAP-оценка), мы по факту приходим к знакомой хуйне:

argmin_w [ Loss(y, Xw) + λ * Penalty(w) ]

Потеря — это от правдоподобия, а штраф Penalty(w) — это прямое следствие нашего априора P(w). Параметр λ — это наша уверенность в своём предрассудке. Чем он больше, тем больше мы говорим модели: "Слушай сюда, веса, ведите себя прилично, как я сказал, а не как данные вам диктуют!"

И теперь самое интересное — какой предрассудок во что превращается:

L2-регуляризация (Ridge):
- Наш предрассудок: Мы считаем, что все веса должны быть небольшими и болтаться около нуля. Как тихие, скромные сотрудники. Априор — гауссовский (нормальный) колокольчик с центром в нуле.
- P(w) ~ N(0, 1/λ * I)
- На практике: Модель не обнуляет веса, но давит на них, чтобы не разбухали. Идеально, когда признаков дохуя и они все хоть как-то полезны. Борется с переобучением и мультиколлинеарностью — когда признаки сговорились и хуярят модель в жопу.
L1-регуляризация (Lasso):
- Наш предрассудок: Мы жадные и подозрительные. Мы считаем, что по-настоящему важных признаков — единицы, а остальные так, шум. Априор — распределение Лапласа. Оно имеет острый пик в нуле (обожает обнулять веса) и тяжёлые хвосты (позволяет некоторым весам стать большими).
- P(w) ~ Laplace(0, 1/λ)
- На практике: Модель начинает выпиливать бесполезные признаки, обнуляя их веса. Получается разреженное решение — отбор фич, красота! Ядрёна вошь, иногда так и узнаёшь, что 90% твоих данных — мусор.
Elastic Net:
- Наш предрассудок: Мы, блядь, не уверены. Может, важных признаков несколько, но и остальные не совсем говно. Давайте намешаем и Лапласа, и Гаусса. Компромисс, ёпта.
- На практике: Сочетает плюсы L1 (отбор фич) и L2 (стабильность, когда признаки коррелируют). Часто самый живучий вариант.

Вывод, который даже начальник поймёт: Выбирая тип регуляризации, ты выбираешь, какого хуя ты вообще хочешь от модели. L2 — это "работайте дружно, но без фанатизма". L1 — это "ребята, я уверен, что важных тут двое, остальные — нахуй". А Elastic Net — это "ну я хз, давайте и то, и другое, но по чуть-чуть". Вот и вся магия, теперь иди и регуляризуй на здоровье.

Видео-ответы

▶

100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование Junior / Middle | Июль 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки