Что такое обучающая (train) выборка в контексте бустинга?

Question

Что такое обучающая (train) выборка в контексте бустинга?

Тип вопроса: Деревья и ансамбли Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

В контексте алгоритмов бустинга (Gradient Boosting, XGBoost, LightGBM, CatBoost) обучающая выборка (train sample) — это набор данных (X_train, y_train), на котором модель последовательно обучает ансамбль слабых моделей (обычно неглубоких деревьев решений). Ключевая особенность бустинга — итеративное исправление ошибок: каждая следующая модель в ансамбле фокусируется на объектах, которые были плохо предсказаны предыдущими моделями.

Как это работает на практике:

Первая модель обучается на исходной выборке.
Вычисляются ошибки (остатки) ее предсказаний.
Следующая модель обучается не на исходных метках y, а на этих остатках, пытаясь их предсказать.
Процесс повторяется много раз, а итоговый прогноз — взвешенная сумма прогнозов всех моделей.

Критические аспекты подготовки train-выборки для бустинга:

Качество данных: Бустинг чувствителен к выбросам и шуму, так как будет пытаться их «исправить» на последующих итерациях, что ведет к переобучению. Важна предварительная очистка.
Разделение на train/valid/test: Для настройки гиперпараметров (количество деревьев, скорость обучения) и контроля переобучения необходимо валидационное множество.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier

# Загрузка данных
data = pd.read_csv('data.csv')
X = data.drop('target', axis=1)
Y = data['target']

# Стратифицированное разделение на train и test
X_train, X_test, y_train, y_test = train_test_split(
    X, Y,
    test_size=0.2,
    random_state=42,
    stratify=Y  # Сохраняет распределение классов в выборках
)

# Дальнейшее разделение train на train и validation для подбора параметров
X_train_fit, X_val, y_train_fit, y_val = train_test_split(
    X_train, y_train,
    test_size=0.25,  # 20% от исходных данных -> validation set
    random_state=42,
    stratify=y_train
)

# Обучение модели с ранней остановкой по validation set
model = GradientBoostingClassifier(n_estimators=1000, learning_rate=0.05, random_state=42)
model.fit(
    X_train_fit, y_train_fit,
    eval_set=[(X_val, y_val)],  # Модель будет оценивать качество на валидации
    early_stopping_rounds=50,   # Остановит обучение, если 50 итераций нет улучшения
    verbose=10
)
# Фактическое число построенных деревьев будет <= 1000

Таким образом, train-выборка в бустинге — это не просто пассивные данные для обучения, а основа для итеративного процесса коррекции ошибок, требующая особого внимания к чистоте и правильному разделению.

Ответ 18+ 🔞

А, ну слушай, про бустинг, да? Это ж такая штука, где модель учится, как упоротый двоечник перед сессией — на своих же косяках. Представь: есть у тебя обучающая выборка, это типа (X_train, y_train). На ней всё и происходит.

Вот как это работает, если по-простому:

Первая модель, обычно какое-то кривенькое деревце, тупо налаживает на этих данных.
Потом умные алгоритмы смотрят, где она налажала больше всего — где ошибки-то, эти остатки.
Следующая модель уже не на исходные ответы учится, а именно на эти косяки, пытается их исправить.
И так повторяется до овердохуища раз, пока не надоест или пока валидация не начнёт кричать «Хуйня! Переобучаешься!».

Итоговый прогноз — это как будто все эти туповатые модели собрались в толпу и орут свой ответ, а ты берёшь среднее, но с умом.

На что срать кирпичами, когда готовишь данные:

Выбросы и шум. Бустинг на них западает, как пидарас шерстяной на блестящее. Он будет их упорно исправлять итерацию за итерацией, пока не переобучится в хлам. Чистить надо, без вариантов.
Разделение на train/valid/test. Это святое. Без валидационного сета ты как слепой кот — будешь тыкаться в гиперпараметры, не понимая, где уже пиздец начался. Valid — это твой спасательный круг.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier

# Грузим данные, тут всё стандартно
data = pd.read_csv('data.csv')
X = data.drop('target', axis=1)
Y = data['target']

# Делим на train и test. Стратифицированно, чтобы распределение классов не съехало.
X_train, X_test, y_train, y_test = train_test_split(
    X, Y,
    test_size=0.2,
    random_state=42,
    stratify=Y
)

# А вот тут хитрый ход: train ещё раз дербаним на train и validation.
# Чтобы подбирать настройки и ловить момент, когда пора остановиться.
X_train_fit, X_val, y_train_fit, y_val = train_test_split(
    X_train, y_train,
    test_size=0.25,
    random_state=42,
    stratify=y_train
)

# Самое вкусное — обучение с ранней остановкой.
model = GradientBoostingClassifier(n_estimators=1000, learning_rate=0.05, random_state=42)
model.fit(
    X_train_fit, y_train_fit,
    eval_set=[(X_val, y_val)],  # Смотрим, как она себя ведёт на валидации
    early_stopping_rounds=50,   # Если 50 раундов подряд улучшений нет — всё, пиздец, стоп машина!
    verbose=10
)
# Итоговое число деревьев будет меньше 1000, если она вовремя остановилась.

Короче, train-выборка в бустинге — это не просто пассивная куча цифр. Это как полигон, где каждая новая модель приходит и сосредотачивается на самых уёбищных ошибках предыдущей. Подход хитрая жопа, но работает как шарманка, если данные не говно и разделил всё правильно.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки