Что такое переобучение модели?

Question

Что такое переобучение модели?

Тип вопроса: Классическое ML Вероятность: 35% Категория: Data Scientist / ML Инженер

Ответ

Переобучение (overfitting) — это ситуация, когда модель машинного обучения чрезмерно подстраивается под обучающую выборку, включая её шум и случайные флуктуации, и теряет способность обобщать знания на новые, ранее не виденные данные.

Как я диагностирую переобучение:

График обучения: Строю кривые обучения (learning curves), которые показывают метрики (например, accuracy или loss) на обучающей и валидационной выборках в зависимости от количества эпох или сложности модели.
Большой разрыв в метриках: Высокая точность на трейне (например, 99%) и значительно более низкая на валидации/тесте (например, 70%) — классический признак.

Методы борьбы, которые я применяю на практике:

Регуляризация:

from sklearn.linear_model import Ridge
# L2-регуляризация в линейной модели
model = Ridge(alpha=1.0)  # alpha — сила регуляризации

Упрощение модели: Уменьшение глубины дерева, количества нейронов/слоев.
Аугментация данных (для CV/NLP): Искусственное увеличение обучающей выборки.
Dropout (для нейросетей): Случайное "выключение" нейронов во время обучения.
Ансамблирование: Использование методов вроде бэггинга (Random Forest), которые по своей природе менее склонны к переобучению.

Пример с деревом решений:

from sklearn.tree import DecisionTreeClassifier

# Модель, склонная к переобучению (неограниченная сложность)
overfit_tree = DecisionTreeClassifier()

# Модель с контролем сложности (менее склонна к переобучению)
generalizable_tree = DecisionTreeClassifier(
    max_depth=5,
    min_samples_leaf=10,
    max_features='sqrt'
)

Главная цель — найти баланс между смещением (bias) и дисперсией (variance) модели.

Ответ 18+ 🔞

Слушай, объясню тебе про переобучение, как есть. Представь себе такого заучку-ботана, который вызубрил учебник от корки до корки, включая все опечатки и пятна от чая. На экзамене по своему учебнику он блеснёт, получит свои 99%. Но как только ему зададут вопрос по той же теме, но чуть иначе сформулированный — он нихуя не ответит, потому что думать не научился, только запомнил. Вот это и есть overfitting, ёпта. Модель так въелась в тренировочные данные, что выучила даже их случайный шум, и теперь на новых данных она — пидарас шерстяной.

Как я это ловлю, этот пиздец:

График обучения: Рисую кривые, где видно, как метрики на обучающей выборке летят в небеса, а на валидационной — накрылись медным тазом и дальше пола не хотят. Это увиденное пиздец.
Разрыв в метриках: Если на трейне accuracy под 100, а на валидации — 70, это ни хуя себе показатель. Прямо кричит: «Чувак, у тебя доверия ебать ноль к этой модели!».

Что я делаю, чтобы эту хитрую жопу обуздать:

Регуляризация: Это как надеть на модель смирительную рубашку, чтобы она не дёргалась по каждому чиху. Говоришь ей: «Успокойся, сука, не гонись за идеальной подгонкой».
```
from sklearn.linear_model import Ridge
model = Ridge(alpha=1.0)  # alpha — это сила, с которой ты её сдерживаешь
```
Упрощение модели: Беру дерево решений, которое хочет вырасти до небес, и обрубаю ему ветки. «Нефиг, — говорю, — полупидор, расти вширь, а не ввысь». Меньше нейронов, меньше слоёв.
Аугментация данных: Для картинок или текстов. Это когда у тебя мало данных, и ты их начинаешь крутить, вертеть, отражать — чих-пых тебя в сраку — и из одного примера делаешь десять. Обманываешь модель, чтобы она училась на сути, а не на конкретном пикселе.
Dropout (для нейросетей): Во время обучения случайным образом вырубаю часть нейронов. Это как если бы наш ботаник готовился к экзамену, периодически забывая случайные параграфы. Зато вынужден понимать общие связи, а не тупо зубрить. Волнение ебать, но работает.
Ансамблирование: Беру кучу простых, не очень умных моделек (как тот самый хуй с горы) и заставляю их голосовать. По отдельности они могут ошибаться, но вместе, как толпа, они выносят более взвешенное и обобщённое решение. Random Forest — царь и бог здесь.

Вот тебе наглядный пиздец с деревом:

from sklearn.tree import DecisionTreeClassifier

# Эта модель — классический **распиздяй**. Вырастет такое, что каждому листику по одному примеру присвоит.
overfit_tree = DecisionTreeClassifier()

# А эту мы приструнили. Сказали: «Не глубже пяти шагов, и в каждом листе минимум 10 примеров».
generalizable_tree = DecisionTreeClassifier(
    max_depth=5,
    min_samples_leaf=10,
    max_features='sqrt'
)

Вся суть, чувак, в том, чтобы найти баланс. Нельзя сделать модель слишком тупой (она нихуя не выучит, это underfitting), и нельзя дать ей стать гением только по одному учебнику (overfitting). Нужно поймать золотую середину, где она и правила уловила, и гибкость сохранила. Вечная борьба смещения и дисперсии, ёбааать.