Что такое доверительный интервал

«Что такое доверительный интервал» — вопрос из категории Статистика и теория вероятностей, который задают на 58% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Доверительный интервал — это диапазон значений, который с заданной вероятностью (уровнем доверия, например 95%) содержит истинный параметр генеральной совокупности.

Пример расчета в Python:

import numpy as np
import scipy.stats as stats

data = np.random.normal(0, 1, 100)  # генерация данных
mean = np.mean(data)
std_err = stats.sem(data)  # стандартная ошибка среднего
conf_int = stats.t.interval(0.95, len(data)-1, loc=mean, scale=std_err)
print(f"95% доверительный интервал: {conf_int}")

Нюансы:

  • Чем выше уровень доверия (например, 99% vs 95%), тем шире интервал.
  • Для малых выборок используется t-распределение, для больших — z-распределение.
  • Интервал не означает, что параметр с вероятностью 95% попадет в этот диапазон — он либо там, либо нет. Уровень доверия относится к методу расчета.