Почему у градиентного бустинга может быть либо высокое смещение, либо высокий разброс?

Question

Почему у градиентного бустинга может быть либо высокое смещение, либо высокий разброс?

Тип вопроса: Деревья и ансамбли Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Градиентный бустинг (GB) — это последовательный ансамбль, где каждое новое дерево учится на ошибках предыдущих. Баланс между смещением (bias) и разбросом (variance) в нем напрямую контролируется гиперпараметрами и может быть смещен в любую сторону.

1. Высокое смещение (недообучение): Возникает, когда модель слишком проста, чтобы уловить закономерности в данных.

Причины: Слишком мало деревьев (n_estimators), малая глубина деревьев (max_depth=1-3), высокий темп обучения (learning_rate близкий к 1.0) без достаточного количества деревьев для его компенсации.

Пример настройки, ведущей к высокому bias:

from sklearn.ensemble import GradientBoostingRegressor
# Модель слишком проста
high_bias_model = GradientBoostingRegressor(
    n_estimators=20,       # Мало деревьев
    max_depth=2,           # Очень мелкие деревья (пни)
    learning_rate=0.1,
    random_state=42
)

Такая модель будет делать предсказания с большой систематической ошибкой, плохо работая и на тренировочных, и на тестовых данных.

2. Высокий разброс (переобучение): Возникает, когда модель слишком сложна и подстраивается под шум в тренировочных данных.

Причины: Слишком много деревьев, большая глубина деревьев (max_depth=10+), низкий темп обучения при большом количестве деревьев (модель может чрезмерно детализироваться).

Пример настройки, ведущей к высокому variance:

high_variance_model = GradientBoostingRegressor(
    n_estimators=2000,     # Очень много деревьев
    max_depth=10,          # Глубокие, сложные деревья
    learning_rate=0.01,    # Низкий LR требует много деревьев
    min_samples_split=2,   # Минимальное разделение
    random_state=42
)

Эта модель может достичь почти идеальной точности на тренировочном наборе, но ее производительность на новых данных (тесте) будет значительно хуже.

Стратегия балансировки (Bias-Variance Trade-off): На практике используют комбинацию параметров для поиска оптимума:

Начинают с управления смещением: Выбирают достаточно глубокие деревья (max_depth=4-8) и умеренное количество итераций, чтобы модель могла выучить закономерности.
Регуляризуют для снижения разброса:
- learning_rate < 0.1 (шаг shrinkage): Каждое новое дерево вносит небольшой вклад, что требует больше деревьев, но делает процесс обучения более плавным и устойчивым.
- subsample < 1.0 (Stochastic Gradient Boosting): Каждое дерево обучается на случайной подвыборке данных (например, 80%), что добавляет шум и снижает переобучение.
- min_samples_split, min_samples_leaf: Ограничивают рост деревьев, не позволяя создавать узлы для маленьких групп объектов.
Кросс-валидация для подбора n_estimators и max_depth — обязательный этап.

Ответ 18+ 🔞

Давай разберем эту хрень про градиентный бустинг, как будто я тебе на кухне объясняю, пока чайник кипит. Представь, что ты учишь какого-то упоротого стажера делать прогнозы. Сначала он нихрена не понимает — это высокое смещение (bias). Потом он начинает заучивать каждую кофейную чашку в офисе и предсказывать по ней погоду — это высокий разброс (variance). Наша задача — найти золотую середину, чтобы он и думать научился, и на каждом чихе не истерил.

1. Высокое смещение, или модель-недоучка. Это когда твоя модель — просто пиздец какой тупой. Как будто ты дал ей прочитать «Войну и мир», а она запомнила только, что там «Анна Каренина» бросилась под поезд. Закономерностей не видит, ошибки делает постоянные и тупые.

Почему так? Деревьев мало, они — пни (глубина 1-3), а скорость обучения (learning_rate) такая, что она с разбегу врезается в стену, но не проламывает.

Вот смотри, как выглядит код для такого дебила:

from sklearn.ensemble import GradientBoostingRegressor
# Модель, которая нихуя не умеет
high_bias_model = GradientBoostingRegressor(
    n_estimators=20,       # Двадцать деревьев? Да я больше на даче посадил!
    max_depth=2,           # Пни, ёпта, не деревья. Мыслят на уровне "если дождь — мокро".
    learning_rate=0.1,
    random_state=42
)

Эта штука будет ошибаться всегда и везде. На тренировочных данных — плохо, на тестовых — ещё хуже. Доверия ебать ноль.

2. Высокий разброс, или модель-заучка с манией величия. А это обратная беда. Модель становится такой умной, что начинает видеть закономерности в случайном шуме. Запомнила не только все данные, но и серийный номер твоего ноутбука, по которому, якобы, можно предсказать курс биткоина. На обучающей выборке — бог и царь, а на новых данных — полный пидарас шерстяной.

Почему так? Деревьев — овердохуища, они глубокие, как Марианская впадина, а скорость обучения мизерная, что позволяет им ковыряться в каждой мелочи.

Вот пример такой заумной переобученной мудятины:

high_variance_model = GradientBoostingRegressor(
    n_estimators=2000,     # Лес, блядь, который не обойти за день.
    max_depth=10,          # Деревья такие глубокие, что в корнях адмирал Колчак спит.
    learning_rate=0.01,    # Ползёт, как черепаха в соплях.
    min_samples_split=2,   # Разделит узел, даже если там один объект и его тень.
    random_state=42
)

На тренировочных данных она покажет результат, от которого сам от себя охуеешь, но стоит дать новые данные — и всё, накрылась медным тазом. Разброс предсказаний — пиздец.

Как же найти баланс, чтобы не быть ни дебилом, ни заучкой? Тут нужна стратегия, чувак.

Сначала бьём по тупости (смещению). Даём модели немного ума: деревья поглубже (max_depth=4-8), деревьев побольше. Пусть хотя бы основные связи увидит.
Потом усмиряем зазнайку (разброс) регуляризацией. Вот где магия:
- learning_rate ставим маленький (часто < 0.1). Это как учить того же стажёра не тапком по башке, а подзатыльниками. Каждое новое дерево вносит крошечную поправку. Процесс дольше, но надёжнее.
- subsample < 1.0. Это стохастический бустинг. Каждое дерево учится не на всём датасете, а на случайной его части (например, 80%). Добавляем здоровый хаос, чтобы модель не зацикливалась на одних и тех же деталях. Подозрение ебать чувствую, что это помогает.
- Выставляем ограничения min_samples_split, min_samples_leaf. Говорим дереву: «Не создавай лист, если там меньше 10 объектов, идиот». Не даём ему выеживаться по мелочам.
И главное — кросс-валидация. Без неё ты как слепой котёнок. Ты ДОЛЖЕН гонять модель на разных кусках данных, подбирая n_estimators и max_depth. Иначе вы ходите по охуенно тонкому льду между недо- и переобучением.

Короче, весь этот цирк — поиск точки, где модель уже не тупит, но ещё не сошла с ума. Как воспитание ребёнка, только проще, потому что тут можно тыкать параметры, а не ремнём.

Видео-ответы

▶

Junior ML-инженер | Выпуск 1 | Собеседование | karpov.courses Junior | Октябрь 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки