Что такое бустинг?

Question

Что такое бустинг?

Тип вопроса: Деревья и ансамбли Вероятность: 35% Категория: Data Scientist / ML Инженер

Ответ

Бустинг — это ансамблевый метод, где модели (обычно неглубокие деревья решений) строятся последовательно. Каждая следующая модель обучается на ошибках предыдущих, что позволяет постепенно улучшать общий результат.

Ключевая идея: вместо независимого обучения множества моделей (как в бэггинге), бустинг целенаправленно исправляет остаточные ошибки.

Практический пример с Gradient Boosting:

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# Генерация данных
X, y = make_regression(n_samples=1000, n_features=10, noise=0.1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Обучение модели бустинга
model = GradientBoostingRegressor(
    n_estimators=200,      # Количество деревьев (итераций бустинга)
    learning_rate=0.05,    # Темп обучения: вклад каждого дерева
    max_depth=3,           # Ограничение глубины для борьбы с переобучением
    subsample=0.8          # Stochastic boosting: обучение на подвыборке
)
model.fit(X_train, y_train)

# Анализ важности признаков
importances = model.feature_importances_

Основные алгоритмы и их особенности:

AdaBoost: Назначает веса объектам, увеличивая вес для неправильно классифицированных.
Gradient Boosting (GBM): Оптимизирует произвольную дифференцируемую функцию потерь с помощью градиентного спуска.
XGBoost/LightGBM/CatBoost: Современные, высокооптимизированные реализации с поддержкой регуляризации, пропущенных значений и категориальных признаков.

На что обращаю внимание при работе:

Контроль переобучения: через learning_rate, max_depth, subsample и регуляризацию.
Ранняя остановка (early stopping): обучение останавливается, если качество на валидационной выборке перестает улучшаться.
Интерпретируемость: анализ важности признаков (feature_importances_) для понимания модели.

Ответ 18+ 🔞

А, бустинг, ебать мои старые костыли! Ну это такая штука, когда ты не просто накидываешь кучу тупых моделей в кучу, а заставляешь их друг друга учить, как падлы. Представь: один алгоритм, допустим, дерево, накосячил. Следующий приходит и смотрит — о, тут этот лох ошибся, ёпта. И он специально тренируется так, чтобы эти косяки исправить. И так по цепочке, пока вся эта банда не начнёт работать как часы. В отличие от бэггинга, где все модели тупо независимы, тут — последовательная школа выживания, жёсткая.

Суть, если по-простому: Каждая следующая мартышлюшка подтирает за предыдущей. И в итоге получается нечто монструозное и точное.

Вот, смотри, как на практике выглядит этот цирк с Gradient Boosting:

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# Нагенерим данных, с чем работать
X, y = make_regression(n_samples=1000, n_features=10, noise=0.1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Собираем нашу банду бустеров
model = GradientBoostingRegressor(
    n_estimators=200,      # Сколько деревьев-дурачков будем тренировать
    learning_rate=0.05,    # Скорость обучения, чтоб не неслось как угорелое и не переобучилось
    max_depth=3,           # Глубину ограничим, а то раздуются от важности
    subsample=0.8          # Stochastic boosting: учим на случайной части данных, для дисциплины
)
model.fit(X_train, y_train)

# Смотрим, какие признаки модель считает важными — иногда открываются удивительные вещи
importances = model.feature_importances_

Алгоритмов этих, бля, овердохуища, но основные такие:

AdaBoost: Тот ещё зануда. Он каждому объекту вес назначает, и если модель ошиблась, вес у этого объекта растёт, чтоб следующая модель на нём внимание заострила. Хитрая жопа.
Gradient Boosting (GBM): Это уже серьёзнее. Он не просто веса меняет, а градиентный спуск использует, чтобы минимизировать любую, блядь, функцию потерь. Умный, сука.
XGBoost/LightGBM/CatBoost: Это уже монстры, индустриальные стандарты. Оптимизированы по скорости и памяти так, что обычный GBM рядом не стоял. Регуляризацию завезли, с категориальными фичами работают — красота.

На что смотреть, чтобы не обосраться:

Борьба с переобучением — наше всё. learning_rate маленький ставь, max_depth не давай расти как на дрожжах, subsample используй. Иначе получишь модель, которая на учебных данных идеальна, а на новых — хуй с горы.
Ранняя остановка (early stopping). Это святое. Как только на отложенной выборке качество перестало расти — всё, стоп машина, дальше только переобучение. Экономит время и нервы.
Интерпретируемость. Ну, какая там интерпретируемость у ансамбля из 200 деревьев... Но хотя бы feature_importances_ посмотреть можно, чтобы понять, на что модель вообще смотрит. А то бывает так: ты думаешь, что важный признак, а модель на него вообще забила хуй, использует какую-нибудь другую фигню. Сам от себя охуеешь.

Видео-ответы

▶

Собеседование Data Science: Артур Кузин/Sber Devices vs Сергей Колесников/Tinkoff | #Нанято S1E02RU Junior / Middle | Июль 2021

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки