Какие методы ансамблирования моделей вы знаете?

Question

Какие методы ансамблирования моделей вы знаете?

Тип вопроса: Деревья и ансамбли Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

В машинном обучении я применяю различные методы ансамблирования, каждый из которых решает конкретные задачи:

1. Бэггинг (Bootstrap Aggregating) — параллельное обучение независимых моделей:

from sklearn.ensemble import RandomForestClassifier, BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# Random Forest - классический пример бэггинга
rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=10,
    random_state=42
)

# Или кастомный бэггинг:
bagging_model = BaggingClassifier(
    estimator=DecisionTreeClassifier(),
    n_estimators=50,
    max_samples=0.8,  # 80% данных для каждой модели
    bootstrap=True,
    n_jobs=-1  # параллельное обучение
)

2. Бустинг (Boosting) — последовательное обучение, где каждая модель исправляет ошибки предыдущей:

# Gradient Boosting
from sklearn.ensemble import GradientBoostingClassifier

gb_model = GradientBoostingClassifier(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=3,
    subsample=0.8  # Stochastic Gradient Boosting
)

# XGBoost (в production)
import xgboost as xgb

xgb_model = xgb.XGBClassifier(
    n_estimators=200,
    max_depth=5,
    learning_rate=0.05,
    subsample=0.8,
    colsample_bytree=0.8
)

3. Стекинг (Stacking) — комбинирование предсказаний через метамодель:

from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Базовые модели
base_models = [
    ('rf', RandomForestClassifier(n_estimators=50)),
    ('svm', SVC(probability=True)),
    ('xgb', xgb.XGBClassifier(n_estimators=100))
]

# Стекинг с логистической регрессией как метамоделью
stacking_model = StackingClassifier(
    estimators=base_models,
    final_estimator=LogisticRegression(),
    cv=5,  # кросс-валидация для обучения метамодели
    n_jobs=-1
)

4. Блендинг (Blending) — упрощенный стекинг с фиксированным разделением данных:

from sklearn.model_selection import train_test_split

# Разделяем данные
X_train, X_blend, y_train, y_blend = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Обучаем базовые модели на train
rf_model.fit(X_train, y_train)
xgb_model.fit(X_train, y_train)

# Получаем предсказания для blend set
rf_preds = rf_model.predict_proba(X_blend)
xgb_preds = xgb_model.predict_proba(X_blend)

# Конкатенируем предсказания как фичи для метамодели
blend_features = np.hstack([rf_preds, xgb_preds])

# Обучаем метамодель
meta_model = LogisticRegression()
meta_model.fit(blend_features, y_blend)

5. Voting (Голосование) — простое усреднение предсказаний:

from sklearn.ensemble import VotingClassifier

voting_model = VotingClassifier(
    estimators=[
        ('rf', rf_model),
        ('xgb', xgb_model),
        ('svm', SVC(probability=True))
    ],
    voting='soft'  # 'hard' для классов, 'soft' для вероятностей
)

Мой опыт применения:

Табличные данные → Gradient Boosting (XGBoost/LightGBM) обычно показывает лучшие результаты
Высокая дисперсия → Random Forest (бэггинг) стабилизирует предсказания
Kaggle/соревнования → стекинг разнородных моделей
Production с ограничениями → выбираю одну лучшую модель или легкий ансамбль

Ключевое правило: ансамбли должны состоять из разнородных моделей, которые ошибаются по-разному. Ансамбль из 100 одинаковых деревьев менее эффективен, чем из 10 разных алгоритмов.

Ответ 18+ 🔞

Слушай, я тут подумал, про эти все ансамбли в машинке. Ну, ёпта, как будто команду подбираешь для дела, а не просто моделей накидываешь. Каждый метод — это как свой подход, своя философия, блядь. И если выбрать не тот, то будет тебе хиросима и нигерсраки в результатах, а не победа.

1. Бэггинг (Bootstrap Aggregating) — это типа «а давайте все сразу, параллельно». Представь, собрал ты овердохуища одинаковых чуваков, дал каждому свой кусок данных (немного разный, потому что bootstrap) и сказал: «Работайте!». А потом усреднил их мнения. Random Forest — это его классический представитель, пидарас шерстяной, но эффективный.

from sklearn.ensemble import RandomForestClassifier, BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# Random Forest - классический пример бэггинга
rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=10,
    random_state=42
)

# Или кастомный бэггинг:
bagging_model = BaggingClassifier(
    estimator=DecisionTreeClassifier(),
    n_estimators=50,
    max_samples=0.8,  # 80% данных для каждой модели
    bootstrap=True,
    n_jobs=-1  # параллельное обучение
)

Суть в том, что каждая модель учится на слегка разных данных, и это снижает разброс, эту самую дисперсию. Как если бы ты десять раз спросил одного и того же эксперта в разном настроении — получишь десять разных ответов, а тут ты спрашиваешь десять разных экспертов, и общая картина выравнивается. Доверия ебать ноль к одному, но к толпе — уже есть.

2. Бустинг (Boosting) — а вот это уже драма, сериал. Тут модели учатся последовательно, и каждая следующая — это как ученик, который концентрируется на косяках предыдущего. Смотрит, где предшественник обосрался, и говорит: «Так, на этих примерах я сосредоточусь, ёпта». Это не параллель, это эстафета, где каждый бежит свой отрезок, исправляя ошибки.

# Gradient Boosting
from sklearn.ensemble import GradientBoostingClassifier

gb_model = GradientBoostingClassifier(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=3,
    subsample=0.8  # Stochastic Gradient Boosting
)

# XGBoost (в production)
import xgboost as xgb

xgb_model = xgb.XGBClassifier(
    n_estimators=200,
    max_depth=5,
    learning_rate=0.05,
    subsample=0.8,
    colsample_bytree=0.8
)

Бустинг — это хитрая жопа. Он часто выдает самую высокую точность на табличных данных, но его, сука, можно переучить, если не аккуратно параметры подбирать. А XGBoost — это вообще монстр, все его используют, когда нужно выжать из данных всё до последней капли.

3. Стекинг (Stacking) — это уже высшая лига, ебать копать. Ты берёшь предсказания нескольких моделей (первый уровень) и скормишь их новой, метамодели (второй уровень). Это как собрать совет генералов, а потом их вердикт отдать на утверждение главнокомандующему.

from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Базовые модели
base_models = [
    ('rf', RandomForestClassifier(n_estimators=50)),
    ('svm', SVC(probability=True)),
    ('xgb', xgb.XGBClassifier(n_estimators=100))
]

# Стекинг с логистической регрессией как метамоделью
stacking_model = StackingClassifier(
    estimators=base_models,
    final_estimator=LogisticRegression(),
    cv=5,  # кросс-валидация для обучения метамодели
    n_jobs=-1
)

Вот это и есть самый мощный инструмент, но и самый сложный. Настроить его — это надо иметь терпения ноль ебать, потому что можно легко получить переобучение, если не следить за кросс-валидацией.

4. Блендинг (Blending) — это как стекинг для ленивых, или его младший брат-распиздяй. Данные заранее делятся на две части: на одной учатся базовые модели, на второй — метамодель. Проще в реализации, но менее статистически обоснованно, чем стекинг с кросс-валидацией.

from sklearn.model_selection import train_test_split

# Разделяем данные
X_train, X_blend, y_train, y_blend = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Обучаем базовые модели на train
rf_model.fit(X_train, y_train)
xgb_model.fit(X_train, y_train)

# Получаем предсказания для blend set
rf_preds = rf_model.predict_proba(X_blend)
xgb_preds = xgb_model.predict_proba(X_blend)

# Конкатенируем предсказания как фичи для метамодели
blend_features = np.hstack([rf_preds, xgb_preds])

# Обучаем метамодель
meta_model = LogisticRegression()
meta_model.fit(blend_features, y_blend)

Быстро и иногда даже работает, но ты как будто часть данных нахуй выбрасываешь для обучения первых моделей. Экономия на спичках.

5. Voting (Голосование) — самое простое, что можно придумать. «Эй, модели, проголосуйте!». Либо большинством голосов (hard), либо усреднением вероятностей (soft).

from sklearn.ensemble import VotingClassifier

voting_model = VotingClassifier(
    estimators=[
        ('rf', rf_model),
        ('xgb', xgb_model),
        ('svm', SVC(probability=True))
    ],
    voting='soft'  # 'hard' для классов, 'soft' для вероятностей
)

Просто, как валенок, но удивительно часто даёт прирост. Особенно если модели реально разные и ошибаются в разном.

А теперь, чувак, мой главный вывод, который кровью и потом добыт: Весь смысл ансамбля — в разнообразии. Если ты возьмёшь сто одинаковых решающих деревьев и сделаешь из них лес, то это будет просто толпа одинаковых идиотов. Они все ошибаются в одну и ту же сторону, в один и тот же момент. А вот если ты соберёшь компанию: одно дерево, какой-нибудь SVM (эта сабака сука), да ещё и бустинг — вот тогда они будут смотреть на задачу с разных сторон. Один упрётся в одни признаки, другой — в другие. И когда они все вместе дадут ответ, то перекроют слепые зоны друг друга.

Так что запомни: ансамбль из разнородных моделей, которые ошибаются по-разному, всегда переплюнет толпу одинаковых алгоритмов. Это как в жизни: слышать нужно разные мнения, а не одно и то же эхо. Иначе так и будешь ходить по охуенно тонкому льду своих заблуждений, пока не провалишься.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки