Что такое компромисс между смещением (bias) и дисперсией (variance) в машинном обучении?

Question

Что такое компромисс между смещением (bias) и дисперсией (variance) в машинном обучении?

Тип вопроса: Классическое ML Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Это фундаментальная дилемма, описывающая баланс между двумя источниками ошибки в модели. Общая ошибка = Смещение² + Дисперсия + Неустранимая ошибка.

Высокое смещение (Bias): Модель слишком проста и делает сильные допущения о данных, не улавливая их сложность (недообучение). Пример: линейная регрессия для данных с квадратичной зависимостью.
Высокая дисперсия (Variance): Модель слишком сложна и чрезмерно подстраивается под шум в обучающих данных (переобучение). Пример: глубокое дерево решений, которое идеально запоминает обучающую выборку, но плохо обобщает.

На практике:

Увеличение сложности модели (например, степени полинома) снижает смещение, но увеличивает дисперсию.
Упрощение модели (регуляризация, уменьшение глубины дерева) снижает дисперсию, но увеличивает смещение.

Пример с полиномиальной регрессией:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

# Генерация данных
np.random.seed(42)
X = 6 * np.random.rand(100, 1) - 3
y = 0.5 * X**2 + X + 2 + np.random.randn(100, 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

train_errors, test_errors = [], []
degrees = range(1, 15)

for degree in degrees:
    poly_features = PolynomialFeatures(degree=degree, include_bias=False)
    X_train_poly = poly_features.fit_transform(X_train)
    X_test_poly = poly_features.transform(X_test)

    model = LinearRegression()
    model.fit(X_train_poly, y_train)

    train_errors.append(mean_squared_error(y_train, model.predict(X_train_poly)))
    test_errors.append(mean_squared_error(y_test, model.predict(X_test_poly)))

plt.plot(degrees, train_errors, 'b-', label='Ошибка на обучении')
plt.plot(degrees, test_errors, 'r-', label='Ошибка на тесте')
plt.xlabel('Степень полинома')
plt.ylabel('MSE')
plt.legend()
plt.show()

На графике видно, как при малой степени (1) ошибка высока из-за смещения, а при большой (14) ошибка на тесте растет из-за дисперсии. Оптимум обычно где-то посередине (например, степень 2 или 3).

Ответ 18+ 🔞

Давай разжую эту тему так, чтобы даже мартышлюшка с калькулятором поняла. Представь, что ты учишь модель, а она — как тот самый полупидор, который либо тупит, как пробка, либо умничает так, что сам себе в ухо залезть может.

Вот смотри, вся эта песня про Bias-Variance Tradeoff — это, по сути, вечный спор между «тупым» и «переумным». Общая ошибка — это как твой жизненный пиздец, который складывается из трёх кирпичей: Смещение² + Дисперсия + Неустранимая ошибка. На последнюю забей, её не победить, это как погода — что выпало, то и терпи.

Высокое смещение (Bias): Это когда твоя модель — реальный тупень. Подозрение ебать чувствую, что она настолько простая, что делает вид, будто мир — это прямая линия. Типа, «ах, данные? Да похуй, я тут свою линейку приложу». Это классическое недообучение. Пример: пытаться линейной регрессией описать траекторию полёта бутерброда маслом вниз — нихуя не выйдет, она же не прямая, ёпта!
Высокая дисперсия (Variance): А это обратная крайность — модель-*выбок. Настолько хитрая жопа, что подстроится под каждую соринку в обучающих данных, включая случайный шум. Выучит не закономерности, а конкретные косяки твоего датасета. Это переобучение в чистом виде. Пример: дерево решений такой глубины, что по листику на каждый обучающий пример предсказывает. На новых данных — доверия ебать ноль**, она просто охуеет и начнёт нести пургу.

Суть всей этой байды:

Делаешь модель умнее (добавляешь степени полиному, глубину дерева) — снижаешь смещение, но вздуваешь дисперсию. Модель меньше тупит, но начинает бздеть от каждого шороха.
Делаешь модель проще (регуляризуешь, обрезаешь ветки) — давишь дисперсию, но увеличиваешь смещение. Она меньше дрожит, но начинает снова тупить и всё упрощать.

Вот, смотри на код, тут всё наглядно:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

# Генерация данных
np.random.seed(42)
X = 6 * np.random.rand(100, 1) - 3
y = 0.5 * X**2 + X + 2 + np.random.randn(100, 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

train_errors, test_errors = [], []
degrees = range(1, 15)

for degree in degrees:
    poly_features = PolynomialFeatures(degree=degree, include_bias=False)
    X_train_poly = poly_features.fit_transform(X_train)
    X_test_poly = poly_features.transform(X_test)

    model = LinearRegression()
    model.fit(X_train_poly, y_train)

    train_errors.append(mean_squared_error(y_train, model.predict(X_train_poly)))
    test_errors.append(mean_squared_error(y_test, model.predict(X_test_poly)))

plt.plot(degrees, train_errors, 'b-', label='Ошибка на обучении')
plt.plot(degrees, test_errors, 'r-', label='Ошибка на тесте')
plt.xlabel('Степень полинома')
plt.ylabel('MSE')
plt.legend()
plt.show()

Запустишь — увидишь картинку. Слева, на первой степени (просто прямая) — ошибка зашкаливает, потому что смещение овердохуища, модель нихуя не улавливает. Справа, на 14-й степени — на обучении ошибка почти ноль (модель впендюрила все точки), а на тесте график ошибки взлетает, как хуй с горы, потому что дисперсия замучила. А где-то посередине, на второй-третьей степени — та самая золотая середина, где они обе успокоились. Вот к этому и стремись, а не делай из модели то тупого валенка, то истеричку с предсказаниями.

Видео-ответы

▶

100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование Junior / Middle | Июль 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки