В чем разница между формулой выборочной дисперсии от генеральной совокупности

«В чем разница между формулой выборочной дисперсии от генеральной совокупности» — вопрос из категории Статистика и теория вероятностей, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Выборочная дисперсия () и дисперсия генеральной совокупности (σ²) отличаются знаменателем в формуле расчета.

Для генеральной совокупности:
σ² = Σ(x� - μ)² / N
где μ — среднее генеральной совокупности, N — её размер.

Для выборки:
s² = Σ(xᵢ - x̄)² / (n - 1)
где — выборочное среднее, n — размер выборки.

Ключевое отличие — использование (n - 1) (коррекция Бесселя) вместо N. Это делается для несмещённой оценки дисперсии генеральной совокупности, так как выборка может не полностью отражать её свойства.

Пример в Python:

import numpy as np

data = [1, 2, 3, 4, 5]
# Генеральная дисперсия (ddof=0)
sigma_sq = np.var(data)  
# Выборочная дисперсия (ddof=1)
s_sq = np.var(data, ddof=1)