Почему вычитание происходит именно в дисперсии

«Почему вычитание происходит именно в дисперсии» — вопрос из категории Статистика и теория вероятностей, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Вычитание в формуле дисперсии (σ² = Σ(xᵢ - μ)² / n) необходимо для измерения отклонений каждой точки данных от среднего значения (μ). Это позволяет понять, насколько данные разбросаны вокруг центра распределения.

Ключевые моменты:

  1. Центрирование данных — вычитание среднего переводит распределение так, что μ = 0, упрощая анализ.
  2. Квадратирование — устраняет отрицательные отклонения, акцентируя внимание на величине разброса.
  3. Альтернативы (например, модули) менее удобны математически (недифференцируемы в нуле).

Пример на Python:

import numpy as np
data = [2, 4, 6, 8]
mean = np.mean(data)  # 5.0
variance = np.sum((np.array(data) - mean) ** 2) / len(data)  # 5.0

Без вычитания среднего дисперсия бы измеряла разброс относительно 0, а не "центра" данных.