В каком алгоритме — бустинге или случайном лесе — больше смещение (bias)?

Question

В каком алгоритме — бустинге или случайном лесе — больше смещение (bias)?

Тип вопроса: Деревья и ансамбли Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

При прочих равных условиях (например, при использовании неглубоких деревьев) начальное смещение (bias) обычно выше у алгоритма случайного леса (Random Forest).

Почему так:

Случайный лес (Random Forest): Это бэггинг-ансамбль. Он строит множество независимых, недообученных (high-bias) деревьев (часто с небольшой глубиной) и усредняет их предсказания. Усреднение помогает снизить дисперсию, но не сильно уменьшает смещение, заложенное в каждом слабом ученике.
Градиентный бустинг (Gradient Boosting): Это бустинг-ансамбль. Он строит деревья последовательно, где каждое новое дерево обучается предсказывать остатки (ошибки) предыдущих моделей. Этот процесс целенаправленно уменьшает смещение на каждой итерации. Первое дерево в бустинге действительно имеет высокое смещение, но каждое последующее его корректирует.

Простая аналогия:

Случайный лес: Спросить мнение 100 первокурсников и усреднить его. Средний ответ будет стабильным (низкая дисперсия), но может быть далёк от истины (высокое смещение).
Бустинг: Спросить эксперта, затем спросить другого эксперта, где ошибся первый, затем третьего — где ошибся предыдущий дуэт, и т.д. Итоговый ответ будет гораздо точнее (низкое смещение).

Практический пример:

from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# Генерируем нелинейные данные
X = np.random.rand(1000, 5)
y = X[:, 0]**2 + np.sin(X[:, 1]*10) + np.random.randn(1000)*0.1
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Слабое дерево (высокий bias)
weak_tree = DecisionTreeRegressor(max_depth=2)
weak_tree.fit(X_train, y_train)

# Случайный лес из слабых деревьев
rf = RandomForestRegressor(n_estimators=100, max_depth=2)
rf.fit(X_train, y_train)

# Градиентный бустинг из слабых деревьев
gb = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=2)
gb.fit(X_train, y_train)

# Оцениваем bias как ошибку на обучающей выборке
print(f"Bias (Weak Tree): {mean_squared_error(y_train, weak_tree.predict(X_train)):.4f}")
print(f"Bias (Random Forest): {mean_squared_error(y_train, rf.predict(X_train)):.4f}")
print(f"Bias (Gradient Boosting): {mean_squared_error(y_train, gb.predict(X_train)):.4f}")
# Скорее всего, bias у Random Forest будет ближе к Weak Tree, а у Boosting — значительно ниже.

Ответ 18+ 🔞

Давай разжую эту тему, как будто объясняю соседу по койке в общаге, который на паре проебался. Слушай сюда, это важно.

Представь, что тебе надо угадать вес этого пидараса шерстяного, который сидит напротив. У тебя есть два метода: спросить у толпы или допрашивать одного за другим, пока не докопаешься до правды.

Так вот, Случайный лес (Random Forest) — это как собрать сотню этих самых первокурсников, которые в жизни весы в руках не держали. Каждый из них — манда с ушами, он посмотрит косо и скажет какую-то хуйню: «Ну, килограммов 50». Потом ты усреднишь все их высеры. Результат будет стабильный — если спросишь завтра, они опять в районе 50 назовут. Но проблема в том, что чувак-то весит 90, блядь! Стабильно ошибаться — это и есть высокое смещение (bias). Лес из слабых, недоученных деревьев (с max_depth=2) — это и есть толпа таких горе-экспертов. Усреднение только дисперсию убирает, а то, что они все идиоты, — остаётся.

А теперь Градиентный бустинг (Gradient Boosting). Это другая история, ёпта. Ты подходишь к первому такому же полупидору и спрашиваешь вес. Он говорит: «50». Ты фиксируешь: «Недооценил на 40, сука». Потом тащишь второго и говоришь: «Смотри, вот этот долбоёб сказал 50, а надо 90. Где он ошибся? Исправь его хуйню». Второй подумает и скажет: «А, ну он проехал мимо мышц, давай я добавлю 25». Итог: 75. Потом ты зовёшь третьего: «Видишь? Первый лох, второй недотянул. Допиливай!». И так сто раз. Каждое новое дерево — это не независимый идиот, а корректор ошибок предыдущих. В итоге ты не стабилизируешь тупизну, а целенаправленно выбиваешь из неё правду, снижая смещение до плинтуса.

Проще говоря:

Случайный лес: «Спросим у всех, кто в зале, и выведем среднюю температуру по больнице». Волнение ебать, а толку? Смещение высокое.
Бустинг: «Ты ошибся тут. А ты — тут. А ты теперь исправь то, что они оба накосячили». Подход хитрожопый, но смещение таки снижает.

Смотри на практике, вот тебе код, он всё подтвердит:

from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# Генерируем нелинейные данные
X = np.random.rand(1000, 5)
y = X[:, 0]**2 + np.sin(X[:, 1]*10) + np.random.randn(1000)*0.1
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Слабое дерево (высокий bias)
weak_tree = DecisionTreeRegressor(max_depth=2)
weak_tree.fit(X_train, y_train)

# Случайный лес из слабых деревьев
rf = RandomForestRegressor(n_estimators=100, max_depth=2)
rf.fit(X_train, y_train)

# Градиентный бустинг из слабых деревьев
gb = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=2)
gb.fit(X_train, y_train)

# Оцениваем bias как ошибку на обучающей выборке
print(f"Bias (Weak Tree): {mean_squared_error(y_train, weak_tree.predict(X_train)):.4f}")
print(f"Bias (Random Forest): {mean_squared_error(y_train, rf.predict(X_train)):.4f}")
print(f"Bias (Gradient Boosting): {mean_squared_error(y_train, gb.predict(X_train)):.4f}")
# Скорее всего, bias у Random Forest будет ближе к Weak Tree, а у Boosting — значительно ниже.

Запустишь — и увидишь, что bias у Random Forest будет овердохуища, почти как у одного кривого дерева, потому что усреднял он одно и то же дерьмо. А бустинг эту проблему ебёт колотить, последовательно вытравливая ошибки. Вот и весь секрет, я тебе в рот чих-пых.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки