Что такое разброс (дисперсия) в статистике?

Ответ

Разброс (дисперсия) — это числовая мера, которая показывает, насколько сильно значения в наборе данных отклоняются от их среднего арифметического значения. Дисперсия количественно определяет "разброс" или "вариабельность" данных.

Формула дисперсии:

  • Дисперсия генеральной совокупности (Population Variance): ( sigma^2 = frac{1}{N} sum_{i=1}^{N} (x_i - mu)^2 )
  • Дисперсия выборки (Sample Variance, несмещенная оценка): ( s^2 = frac{1}{n-1} sum_{i=1}^{n} (x_i - bar{x})^2 ) Использование (n-1) (степени свободы) вместо (n) корректирует смещение оценки при работе с выборкой, давая более точную оценку дисперсии генеральной совокупности.

Ключевые свойства:

  • Дисперсия всегда неотрицательна (( sigma^2 geq 0 )).
  • Дисперсия измеряется в квадратах единиц исходных данных (например, если данные в метрах, дисперсия — в метрах²).
  • Чувствительность к выбросам: Поскольку отклонения возводятся в квадрат, выбросы (экстремальные значения) вносят очень большой вклад в дисперсию.

Практический расчет и интерпретация:

import numpy as np
import matplotlib.pyplot as plt

# Пример данных
heights = np.array([165, 170, 175, 180, 185, 190, 195])  # Рост в см
mean_height = np.mean(heights)
variance_height = np.var(heights, ddof=1)  # ddof=1 для выборки
std_dev_height = np.std(heights, ddof=1)   # Стандартное отклонение

print(f"Средний рост: {mean_height:.1f} см")
print(f"Дисперсия роста: {variance_height:.1f} см²")
print(f"Стандартное отклонение: {std_dev_height:.1f} см")

# Визуализация
plt.figure(figsize=(8,4))
plt.scatter(heights, np.zeros_like(heights), alpha=0.6, label='Данные')
plt.axvline(mean_height, color='red', linestyle='--', label=f'Среднее ({mean_height:.1f})')
# Показываем интервал ± одно стандартное отклонение
plt.axvspan(mean_height - std_dev_height, mean_height + std_dev_height, alpha=0.2, color='gray', label='±1 σ')
plt.xlabel('Рост (см)')
plt.legend()
plt.title(f'Разброс данных. Дисперсия = {variance_height:.1f}, STD = {std_dev_height:.1f}')
plt.show()

Связь со стандартным отклонением: Стандартное отклонение (( sigma ) или ( s )) — это квадратный корень из дисперсии. Это более удобная для интерпретации мера разброса, так как она выражается в тех же единицах, что и исходные данные.

Альтернативные меры разброса (устойчивые к выбросам):

  • Межквартильный размах (IQR): Разница между 75-м и 25-м процентилями (Q3 - Q1).
  • Среднее абсолютное отклонение (MAD): Среднее значение абсолютных отклонений от медианы или среднего.

Ответ 18+ 🔞

А, дисперсия, говоришь? Ну это ж классика, ебать мои старые костыли! Представь, что у тебя есть толпа мужиков в бане. Все вроде как одного роста, а потом заходит один — хуй с горы, два метра двадцать, и второй — манда с ушами, метр с кепкой. Вот дисперсия — это как раз мера того, насколько у тебя эта толпа разнокалиберная, насколько данные от среднего значения разбежались.

Если по-простому: это средняя арифметическая квадратов отклонений каждой величины от средней. Звучит, как пиздопроебина, но на деле всё логично. Берёшь каждое число, вычитаешь из него среднее по всем числам, получаешь отклонение. Но если просто сложить отклонения, будет ноль — положительные и отрицательные друг друга съедят. Поэтому их возводят в квадрат, чтобы все стали положительными, а потом усредняют. Вот тебе и дисперсия.

Формулы эти, ёпта:

  • Для всей генеральной совокупности (ну, типа для всей бани): ( sigma^2 = frac{1}{N} sum_{i=1}^{N} (x_i - mu)^2 )
  • Для выборки (типа глянул на пятерых в парилке и делаешь выводы): ( s^2 = frac{1}{n-1} sum_{i=1}^{n} (x_i - bar{x})^2 )

Видишь разницу? Внизу не n, а n-1. Это поправка Бесселя, степени свободы, бля. Нужна, чтобы несмещённую оценку получить. Если не поправить, будешь систематически занижать дисперсию для всей толпы, основываясь на кучке ушастых. Доверия ебать ноль к такой оценке.

Что важно помнить, чувак:

  • Она всегда неотрицательная. Отрицательного разброса не бывает, это ж бред.
  • Измеряется в квадратах единиц. Рост в сантиметрах, а дисперсия — в сантиметрах квадратных. Из-за этого её нахуй не поймёшь. Поэтому все используют стандартное отклонение — корень квадратный из дисперсии. Оно уже в нормальных единицах.
  • Чувствительность к выбросам — овердохуища. Из-за возведения в квадрат один уродец-выброс может всю картину испортить. Представь, средняя зарплата по отделу 100к, все в районе этой суммы, а директору 10 лямов. Его отклонение — 9.9 млн, а в квадрате — 98.01 млрд. Вот эта хуйня и вздует дисперсию до небес, хотя все, кроме одного, живут примерно одинаково.

Вот тебе код, тут всё честно:

import numpy as np
import matplotlib.pyplot as plt

# Допустим, замеряем время реакции на кофе
reaction_times = np.array([210, 205, 208, 212, 215, 350])  # Последний — это я без кофе, мудя
mean_time = np.mean(reaction_times)
variance_time = np.var(reaction_times, ddof=1)  # ddof=1 — это как раз n-1 для выборки
std_time = np.std(reaction_times, ddof=1)

print(f"Среднее время: {mean_time:.1f} мс")
print(f"Дисперсия: {variance_time:.1f} мс²") # Смотри, квадратные миллисекунды, ёклмн!
print(f"Стандартное отклонение: {std_time:.1f} мс") # А это уже понятно

# Картинка для наглядности
plt.figure(figsize=(8,4))
plt.scatter(reaction_times, np.zeros_like(reaction_times), alpha=0.6, s=100, label='Замеры')
plt.axvline(mean_time, color='red', linestyle='--', label=f'Среднее ({mean_time:.1f})')
# Зона в +/- одно стандартное отклонение
plt.axvspan(mean_time - std_time, mean_time + std_time, alpha=0.2, color='gray', label='±1 σ')
plt.xlabel('Время реакции (мс)')
plt.legend()
plt.title(f'Разброс. Дисперсия (мс²) = {variance_time:.1f}, STD (мс) = {std_time:.1f}')
plt.grid(True, alpha=0.3)
plt.show()

Запустишь — увидишь, как один тормоз (350 мс) всю статистику наизнанку вывернул. Дисперсия будет заоблачная.

Поэтому умные дяди иногда смотрят на другие штуки:

  • Межквартильный размах (IQR): Разница между третьим и первым квартилем (Q3 - Q1). Отсекает выбросы, показывает разброс середины данных. Устойчивая мера.
  • Среднее абсолютное отклонение (MAD): Берут не квадраты отклонений, а их модули, и усредняют. Тоже не так психует на выбросы.

Короче, дисперсия — мощный инструмент, но слепой. Как молоток: гвоздь забить — идеально, а для микросхемы — терпения ноль ебать, всё разобьёшь. Всегда смотри, нет ли в твоих данных таких ушастых выбросов, которые всё к чертям собачьим сведут.