Что такое математическое ожидание случайной величины?

Question

Что такое математическое ожидание случайной величины?

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Математическое ожидание (Expected Value) — это средневзвешенное значение случайной величины по всем её возможным исходам, где весами выступают вероятности этих исходов. Это центральная характеристика, вокруг которой распределены значения величины.

Формулы:

Для дискретной случайной величины: E[X] = Σ (x_i * p_i), где x_i — возможное значение, p_i — его вероятность.
Для непрерывной случайной величины с плотностью вероятности f(x): E[X] = ∫ x * f(x) dx (интеграл по всей области определения).

Пример расчета для дискретной величины (бросок игрального кубика): Значения: {1, 2, 3, 4, 5, 6}, каждое с вероятностью 1/6. E[X] = (1+2+3+4+5+6) * 1/6 = 21 / 6 = 3.5

Основные свойства:

Линейность: E[aX + bY + c] = a*E[X] + b*E[Y] + c, где a, b, c — константы.
Для независимых величин: E[X*Y] = E[X] * E[Y].
Математическое ожидание может не существовать у распределений с «тяжелыми хвостами» (например, распределение Коши).

Практическое применение в Data Science:

Оценка среднего: Выборочное среднее — несмещенная оценка математического ожидания генеральной совокупности.
Функции потерь (Loss Functions): Например, MSE (Mean Squared Error) — это математическое ожидание квадрата ошибки.
Ожидаемый выигрыш в A/B-тестах и decision theory.

Код для вычисления:

import numpy as np

# Для известного дискретного распределения
values = np.array([10, 20, 30])
probabilities = np.array([0.2, 0.5, 0.3])
expected_value = np.sum(values * probabilities)
print(f"Expected value: {expected_value}")  # 10*0.2 + 20*0.5 + 30*0.3 = 21.0

# Оценка мат. ожидания по выборке (эмпирическое среднее)
sample = np.random.normal(loc=5.0, scale=2.0, size=1000) # loc — это и есть теоретическое мат. ожидание
sample_mean = np.mean(sample)
print(f"Sample mean (estimate of E[X]): {sample_mean:.4f}")

Ответ 18+ 🔞

Давай разберем эту тему про математическое ожидание, чтобы было понятно, как в жизни работает, а не просто формулы зубрить. Представь, что ты играешь в казино, и тебе нужно понять, насколько тебя наёбывают. Вот для этого эта штука и нужна.

Что это вообще такое? Это типа средняя температура по больнице, но для случайных событий. Если ты миллион раз подбросишь монетку и будешь считать, сколько раз выпала решка, то в среднем получишь 50% — это и есть матожидание. Формально — это взвешенная сумма всех возможных исходов, где вес — это вероятность. Если проще: умножаешь каждый возможный выигрыш на шанс его получить, всё складываешь и получаешь, сколько в среднем тебе светит с одной попытки.

Формулы, без них никуда:

Если вариантов конечное число (дискретная величина): E[X] = Σ (x_i * p_i). Берёшь каждый возможный исход (x_i), умножаешь на его вероятность (p_i) и всё суммируешь. Ёпта, как в лотерее: выигрыш умножаешь на шанс один к десяти миллионам, получаешь три копейки — вот и вся твоя средняя прибыль.
Если вариантов бесконечно много (непрерывная величина): E[X] = ∫ x * f(x) dx. Тут уже интеграл, ебушки-воробушки, но смысл тот же: усредняешь все значения с учётом того, насколько они частые.

Пример из жизни, чтобы мозг не взорвался: Кидаешь обычный кубик. Значения от 1 до 6, вероятность каждого — ровно 1/6. Считаем: E[X] = (1+2+3+4+5+6) * 1/6 = 21 / 6 = 3.5. Вот и всё. В среднем за много бросков у тебя будет выпадать 3.5. Хотя конкретно 3.5 выпасть не может, но среднее стремится к этому. Ни хуя себе, да?

Главные свойства, которые надо помнить:

Линейность — святая святых. E[aX + bY + c] = a*E[X] + b*E[Y] + c. Константы выносятся и складываются просто. Это пизда рулю, потому что очень упрощает жизнь.
Для НЕЗАВИСИМых величин: E[X*Y] = E[X] * E[Y]. Но если они зависимые — доверия ебать ноль, эта формула не работает.
Бывает, что матожидания вообще нет, ядрёна вошь! Например, у распределения Коши — там такие жирные хвосты, что среднее просто не сходится. Сам от себя охуел, когда впервые узнал.

Зачем это в Data Science, а не только в казино?

Оценка среднего по выборке. Ты посчитал среднюю зарплату по своим данным — это и есть оценка матожидания по всей популяции. Если выборка нормальная, то она будет близка.
Функции потерь. Та же MSE (среднеквадратичная ошибка) — это по сути матожидание квадрата разницы между предсказанием и правдой. Минимизируешь MSE — минимизируешь среднюю ошибку.
Принятие решений (A/B-тесты). Считаешь ожидаемый выигрыш от новой фичи. Если матожидание прибыли положительное — можно запускать. Если отрицательное — это хуй в пальто, и лучше не рисковать.

Код, чтобы не быть просто теоретиком:

import numpy as np

# Ситуация: у тебя есть лотерея с тремя исходами
values = np.array([10, 20, 30]) # возможные выигрыши
probabilities = np.array([0.2, 0.5, 0.3]) # их вероятности
expected_value = np.sum(values * probabilities) # умножаем и складываем
print(f"Expected value: {expected_value}")  # 10*0.2 + 20*0.5 + 30*0.3 = 21.0
# Вывод: в среднем с одного билета получишь 21 условную единицу.

# В реальности мы часто не знаем вероятностей, а просто имеем кучу данных (выборку)
# Генерируем выборку из нормального распределения с теоретическим средним (loc) = 5
sample = np.random.normal(loc=5.0, scale=2.0, size=1000)
sample_mean = np.mean(sample) # Считаем среднее по выборке — это оценка матожидания!
print(f"Sample mean (estimate of E[X]): {sample_mean:.4f}")
# Увидишь число около 5. Это и значит, что выборочное среднее работает.

Короче, матожидание — это твой главный ориентир в мире случайностей. Не знаешь, что будет в одном конкретном случае, но в среднем за тысячу попыток — вот оно. Главное, э бошка думай, когда применяешь, и помни про независимость и те самые «тяжёлые хвосты», которые всё могут впендюрить.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки