В чём суть метода случайных подпространств (Random Subspace Method)?

Question

В чём суть метода случайных подпространств (Random Subspace Method)?

Тип вопроса: Деревья и ансамбли Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Метод случайных подпространств (Random Subspace Method, RSM) — это ансамблевый метод, направленный на повышение разнообразия базовых моделей за счёт обучения каждой из них на случайно выбранном подмножестве признаков (features) из исходного пространства.

Основная идея: Если обучить множество моделей на разных проекциях данных (разных наборах признаков), их ошибки будут менее коррелированы. При агрегации (например, усреднении или голосовании) таких моделей общая ошибка ансамбля уменьшается.

Как работает алгоритм:

Для обучения каждого базового классификатора (чаще всего дерева решений) из исходного набора из D признаков случайным образом выбирается подмножество из d признаков (где d < D, обычно d = sqrt(D) или log2(D)).
Модель обучается только на этом подмножестве признаков. Все объекты (строки) используются полностью.
Шаги 1-2 повторяются для N базовых моделей.
При предсказании для нового объекта каждая модель делает прогноз на основе своего набора признаков, а итоговый прогноз ансамбля получается путём агрегации (голосования для классификации, усреднения для регрессии).

Преимущества метода:

Снижает переобучение: Разные модели фокусируются на разных аспектах данных, что уменьшает дисперсию ансамбля.
Повышает устойчивость к шуму в признаках.
Эффективен для данных с большим количеством признаков (high-dimensional data), где многие признаки могут быть избыточными или слабо информативными.
Ускоряет обучение каждой отдельной модели, так как она работает с меньшей размерностью.

Связь с Random Forest: Random Forest комбинирует две идеи: бутстрэп агрегирование (bagging), которое создаёт разнообразие за счёт разных подвыборок объектов, и метод случайных подпространств, создающий разнообразие за счёт разных подвыборок признаков. В Random Forest для каждого дерева обычно используется max_features = sqrt(n_features).

Пример реализации с помощью Scikit-learn:

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Генерация синтетических данных
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создание модели Random Forest, которая использует принцип случайных подпространств
# Параметр max_features='sqrt' означает, что для каждого дерева будет выбрано sqrt(20) ~ 4 случайных признака
model = RandomForestClassifier(
    n_estimators=100,
    max_features='sqrt',  # Ключевой параметр, реализующий RSM
    random_state=42,
    n_jobs=-1
)
model.fit(X_train, y_train)

print(f"Точность на тесте: {model.score(X_test, y_test):.3f}")
print(f"Пример размера подпространства для одного дерева: {model.estimators_[0].n_features_in_}")

На практике метод случайных подпространств редко используется в чистом виде, но является ключевым компонентом успешных ансамблевых алгоритмов, таких как Random Forest и ExtraTrees.

Ответ 18+ 🔞

Слушай, ну вот объясняю тебе про эту штуку, как будто на пальцах. Есть такой трюк — метод случайных подпространств. Суть проще пареной репы, но работает, ёпта, как швейцарские часы.

Представь, что у тебя куча признаков в данных — ну, там размер, цвет, вес, цена, ещё какая-нибудь хуйня. Овердохуища признаков, короче. И ты хочешь на этом всём натренировать не одну модель, а целую толпу, чтобы они потом, как умные дяди на совещании, голосовали и давали точный ответ.

Так вот, если каждую модель кормить всеми признаками сразу, они начнут думать одинаково и ошибаться в одном и том же месте. Это как если бы все эксперты читали одну и ту же газету — мнение было бы однообразное, и доверия к их вердикту, блядь, ноль.

А тут хитрость в чём? Берёшь каждую новую модель и говоришь: «Слушай, дружок, вот тебе не все признаки, а только случайная кучка из них. Разбирайся!» Например, из двадцати признаков ты даёшь ей только четыре — какие попадутся. Следующей модели — другую случайную четвёрку. И так сто раз.

Каждая модель, ебать мои старые костыли, видит данные под своим углом. Одна смотрит на размер и цвет, другая — на вес и цену. Ошибки у них становятся разными, не скоррелированными. А когда они потом голосуют за итоговый ответ, то эти ошибки как бы компенсируют друг друга. Ансамбль получается устойчивее, надёжнее, и переобучается он меньше — потому что каждая отдельная модель, по сути, ограничена в обзоре.

Как это выглядит в коде, если в лоб?

Было D признаков. Для каждой модели-участницы ты случайно выбираешь d штук (где d меньше D). Обычно берут корень из общего числа или логарифм — чтобы не переборщить.
Обучаешь модель только на этой выбранной подгруппе фич. Все строки данных (объекты) используются полностью, не трогаем.
Повторяешь это дело N раз, чтобы получить целую банду моделей.
Когда нужно новый объект классифицировать, каждая модель из банды даёт свой прогноз, глядя только на свои, отведённые ей, признаки. Потом устраиваете голосование — кто за «да», кто за «нет». Чьих больше, тот и победил.

В чём профит, спросишь?

Переобучение снижается — потому что модели не могут сговориться, у каждой свой узкий кругозор.
Устойчивость к мусорным признакам — если в данных есть шум, то какая-то модель на него наткнётся, но остальные-то нет, они голосовать будут по делу.
Быстрее учится каждая отдельная модель — ей же меньше признаков обрабатывать.
Идеально для задач, где признаков дохуя, а какие из них реально важные — хрен поймёшь. Метод сам выясняет, какие комбинации работают.

А где это уже используется? Да везде! Самый известный пример — Random Forest (Случайный Лес). Это, по сути, два в одном: там и объекты для каждого дерева берутся случайно (бутстрэп), и признаки выбираются случайно — это как раз и есть наш метод случайных подпространств. В RandomForestClassifier за это отвечает параметр max_features. Поставь его в 'sqrt', и для каждого дерева будет браться корень из общего числа признаков. Красота!

Вот тебе живой пример на Python:

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Нагенерим данных, с прицепом признаков
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаём лес, где каждое дерево смотрит на случайную кучку признаков
model = RandomForestClassifier(
    n_estimators=100,           # Сто деревьев в лесу
    max_features='sqrt',        # Вот он, наш герой! Берём sqrt(20) ~ 4 случайных признака на дерево
    random_state=42,            # Чтобы воспроизвести можно было
    n_jobs=-1                   # Чтобы все ядра процессора в дело пустить
)
model.fit(X_train, y_train)

print(f"Точность на тесте: {model.score(X_test, y_test):.3f}")
print(f"Пример размера подпространства для одного дерева: {model.estimators_[0].n_features_in_}")

Чисто технически, в одиночку этот метод используют редко — ну, типа, «зачем изобретать велосипед, если есть готовый внедорожник?». Но как фундаментальная идея внутри мощных алгоритмов вроде Random Forest или ExtraTrees — она, блядь, гениальная в своей простоте. Работает — и ни хуя себе!

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки