Какие методы борьбы с переобучением вы знаете?

Question

Какие методы борьбы с переобучением вы знаете?

Тип вопроса: Классическое ML Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

В своих проектах я применяю комбинацию методов для борьбы с переобучением, начиная с простых и переходя к более сложным:

1. Регуляризация — добавляю штраф за сложность модели:

# L1 (Lasso) и L2 (Ridge) регуляризация
from sklearn.linear_model import LogisticRegression

# L1 регуляризация - для отбора признаков
l1_model = LogisticRegression(
    penalty='l1',
    C=0.1,  # обратная сила регуляризации
    solver='liblinear'
)

# L2 регуляризация - для уменьшения весов
l2_model = LogisticRegression(
    penalty='l2',
    C=0.1,
    solver='lbfgs',
    max_iter=1000
)

# ElasticNet - комбинация L1 и L2
from sklearn.linear_model import ElasticNet
elastic_model = ElasticNet(
    alpha=0.1,
    l1_ratio=0.5  # 0.5 = 50% L1, 50% L2
)

2. Ранняя остановка (Early Stopping) — для итеративных алгоритмов:

# Для Gradient Boosting
import xgboost as xgb

xgb_model = xgb.XGBClassifier(
    n_estimators=1000,  # Ставим большое число
    early_stopping_rounds=50,
    eval_metric='logloss',
    eval_set=[(X_val, y_val)]  # Валидационный набор
)

# Для нейросетей в TensorFlow/Keras
import tensorflow as tf

early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',
    patience=10,
    restore_best_weights=True  # Важно: восстанавливаем лучшие веса
)

model.fit(X_train, y_train,
          validation_data=(X_val, y_val),
          epochs=100,
          callbacks=[early_stopping],
          verbose=0)

3. Dropout — для нейронных сетей:

model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.5),  # 50% нейронов отключаются случайно
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dropout(0.3),  # 30% отключаются
    tf.keras.layers.Dense(10, activation='softmax')
])

4. Аугментация данных — для изображений и текстов:

# Для изображений
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

5. Упрощение модели:

# Для деревьев
from sklearn.tree import DecisionTreeClassifier

simple_tree = DecisionTreeClassifier(
    max_depth=5,           # Ограничиваем глубину
    min_samples_split=20,  # Минимум samples для разделения
    min_samples_leaf=10    # Минимум samples в листе
)

# Для нейросетей
simple_nn = tf.keras.Sequential([
    tf.keras.layers.Dense(32, activation='relu'),  # Меньше нейронов
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

6. Кросс-валидация — для надежной оценки:

from sklearn.model_selection import cross_val_score

scores = cross_val_score(
    estimator=model,
    X=X_train,
    y=y_train,
    cv=5,           # 5-fold кросс-валидация
    scoring='accuracy',
    n_jobs=-1
)
print(f"Средняя accuracy: {scores.mean():.3f} (±{scores.std():.3f})")

7. Batch Normalization — стабилизация обучения нейросетей:

model = tf.keras.Sequential([
    tf.keras.layers.Dense(128),
    tf.keras.layers.BatchNormalization(),  # Нормализуем активации
    tf.keras.layers.Activation('relu'),
    tf.keras.layers.Dropout(0.5)
])

Моя стратегия:

Начинаю с кросс-валидации и мониторинга разницы train/val ошибок
Для линейных моделей → регуляризация (L1 если нужно отобрать признаки, L2 если нет)
Для деревьев → ограничение глубины и минимального размера узлов
Для бустинга → ранняя остановка + небольшая скорость обучения
Для нейросетей → dropout + batch normalization + early stopping
Для изображений → аугментация + dropout

Важнее всего понимать, почему модель переобучается: мало данных, слишком сложная модель или шумные признаки. Диагностика определяет лечение.

Ответ 18+ 🔞

Э, слушай, смотри как я с этой хуйнёй борюсь, когда модель начинает тупить как мартышка с гранатой и учит не общие закономерности, а просто заучивает тренировочные данные наизусть, как стишок в детском саду. Стратегия простая, но, блядь, работает — начинаю с простого и по нарастающей, пока не добьюсь, чтобы модель не была пиздопроебибной.

1. Регуляризация — это типа штрафуешь её за излишнюю умность.
Типа, "не выёбывайся, сука, с весами". L1 — это когда ты говоришь "оставь только самое важное, а остальное в пизду", а L2 — это "успокойся, дружок, не раскачивай веса как сумасшедший".

# L1 (Lasso) и L2 (Ridge) регуляризация
from sklearn.linear_model import LogisticRegression

# L1 регуляризация - для отбора признаков
l1_model = LogisticRegression(
    penalty='l1',
    C=0.1,  # обратная сила регуляризации
    solver='liblinear'
)

# L2 регуляризация - для уменьшения весов
l2_model = LogisticRegression(
    penalty='l2',
    C=0.1,
    solver='lbfgs',
    max_iter=1000
)

# ElasticNet - комбинация L1 и L2
from sklearn.linear_model import ElasticNet
elastic_model = ElasticNet(
    alpha=0.1,
    l1_ratio=0.5  # 0.5 = 50% L1, 50% L2
)

2. Ранняя остановка (Early Stopping) — это вообще святое, ёпта.
Представь, ты учишь собаку команде "сидеть". Она уже села, а ты всё продолжаешь и продолжаешь её учить. В итоге она на тебя посмотрит как на дебила и сходит под диван. Так и тут — как только модель на валидации перестаёт улучшаться, надо крикнуть "СТОП, ЕБАНЫЙ В РОТ!" и прекратить обучение.

# Для Gradient Boosting
import xgboost as xgb

xgb_model = xgb.XGBClassifier(
    n_estimators=1000,  # Ставим большое число
    early_stopping_rounds=50,
    eval_metric='logloss',
    eval_set=[(X_val, y_val)]  # Валидационный набор
)

# Для нейросетей в TensorFlow/Keras
import tensorflow as tf

early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',
    patience=10,
    restore_best_weights=True  # Важно: восстанавливаем лучшие веса
)

model.fit(X_train, y_train,
          validation_data=(X_val, y_val),
          epochs=100,
          callbacks=[early_stopping],
          verbose=0)

3. Dropout — это гениально и просто, как хуй с горы.
Ты в нейросети случайным образом выключаешь часть нейронов на каждом шаге. Это как если бы футбольную команду заставляли играть без трёх случайных игроков в каждом матче. В итоге они учатся не полагаться на одного звездана, а играть как команда, блядь. И модель становится устойчивее.

model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.5),  # 50% нейронов отключаются случайно
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dropout(0.3),  # 30% отключаются
    tf.keras.layers.Dense(10, activation='softmax')
])

4. Аугментация данных — это когда данных мало, и ты начинаешь их ебашить как сумасшедший, чтобы создать иллюзию, что их овердохуища.
С картинками — крутишь, вертишь, растягиваешь. С текстом — заменяешь слова синонимами, хуяришь back-translation. Главное — не переборщить, а то получится ебанько, а не данные.

# Для изображений
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

5. Упрощение модели — это когда ты берёшь свою навороченную нейросеть и говоришь ей: "Слушай, дружок, ты не на конкурс красоты, давай-ка поскромнее".
Меньше слоёв, меньше нейронов. Для дерева — ограничиваешь глубину, чтобы оно не уходило корнями в ад, а росло как бонсай.

# Для деревьев
from sklearn.tree import DecisionTreeClassifier

simple_tree = DecisionTreeClassifier(
    max_depth=5,           # Ограничиваем глубину
    min_samples_split=20,  # Минимум samples для разделения
    min_samples_leaf=10    # Минимум samples в листе
)

# Для нейросетей
simple_nn = tf.keras.Sequential([
    tf.keras.layers.Dense(32, activation='relu'),  # Меньше нейронов
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

6. Кросс-валидация — это чтобы не обмануться как лох.
Обучаешь не на одном куске, а на нескольких, и смотришь, как модель ведёт себя в среднем. Если на всех фолдах accuracy скачет как угорелая, то доверия к модели — ебать ноль.

from sklearn.model_selection import cross_val_score

scores = cross_val_score(
    estimator=model,
    X=X_train,
    y=y_train,
    cv=5,           # 5-fold кросс-валидация
    scoring='accuracy',
    n_jobs=-1
)
print(f"Средняя accuracy: {scores.mean():.3f} (±{scores.std():.3f})")

7. Batch Normalization — это как дать нейросети валерьянки.
Стабилизирует обучение, чтобы градиенты не уходили в запой, а активации не сходили с ума. После этого dropout работает ещё лучше, ядрёна вошь.

model = tf.keras.Sequential([
    tf.keras.layers.Dense(128),
    tf.keras.layers.BatchNormalization(),  # Нормализуем активации
    tf.keras.layers.Activation('relu'),
    tf.keras.layers.Dropout(0.5)
])

А теперь, блядь, моя общая стратегия, чтобы не было волнения ебать:

Начинаю всегда с кросс-валидации. Если разница между train и val accuracy как между небом и землёй — всё, пиши пропало, переобучение.
Если модель линейная — хуярю регуляризацию. L1, если признаков дохуя и нужно понять, какие из них реально важные, а какие — просто шум.
Если дерево или лес — жёстко ограничиваю глубину и минимальный размер узла. Не даю ему вырасти в монстра, который помнит каждую травинку в данных.
Если градиентный бустинг — ранняя остановка и маленькая скорость обучения. Чтобы он учился медленно, но верно, а не хватал всё подряд как распиздяй.
Если нейросеть — это вообще ёперный театр. Обязательно dropout, batch norm и early stopping. Без этого она сойдёт с ума на втором десятке эпох.
Если работаю с картинками — аугментация + dropout. Создаю иллюзию, что данных пиздец сколько, и заставляю сеть смотреть на суть, а не на пиксели.

И главное, чувак, — диагностика. Надо понять, почему она переобучается. Мало данных? Слишком сложная модель, которая может выучить даже телефонную книгу? Или признаки такие ебушки-воробушки, что в них нихуя не понятно? Понял причину — половина дела сделана. А дальше уже берёшь нужный инструмент и впендюриваешь по проблеме.

Видео-ответы

▶

Junior Data Scientist | Собеседование | karpov.courses Junior | Март 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки