Что такое доверительный интервал? — пример ответа на собеседовании Data Scientist / ML Инженер

Что такое доверительный интервал?

«Что такое доверительный интервал?» — вопрос из категории Статистика и теория вероятностей, который задают на 30% собеседований Data Scientist / ML Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Тип вопроса: Статистика и теория вероятностей Вероятность: 30% Категория: Data Scientist / ML Инженер

Ответ

Доверительный интервал (ДИ) — это диапазон значений, который с заданной вероятностью (уровнем доверия, например, 95%) накрывает истинное значение оцениваемого параметра генеральной совокупности (например, среднего или доли). Он не говорит о распределении самих данных, а характеризует точность нашей выборочной оценки.

Ключевые моменты:

Ширина интервала зависит от:
1. Размера выборки (n): чем больше n, тем уже интервал.
2. Разброса данных (стандартного отклонения σ): чем больше разброс, тем шире интервал.
3. Выбранного уровня доверия (например, 95%): повышение уровня доверия (до 99%) ведет к расширению интервала.
95% ДИ НЕ означает, что 95% данных лежат в этом диапазоне. Это интервал для параметра (например, среднего).
Правильная интерпретация: если мы многократно повторяем эксперимент и строим 95% ДИ, то примерно 95% таких интервалов будут содержать истинное значение параметра.

Пример расчета для среднего в Python (t-интервал, т.к. σ генеральной совокупности неизвестна):

import numpy as np
import scipy.stats as stats

# Генерация выборки
np.random.seed(42)
data = np.random.normal(loc=100, scale=15, size=30)  # среднее=100, ст.откл.=15
confidence_level = 0.95

# Расчет
mean = np.mean(data)                     # Выборочное среднее
sem = stats.sem(data)                    # Стандартная ошибка среднего (Standard Error of the Mean)
dof = len(data) - 1                      # Степени свободы
ci = stats.t.interval(confidence_level, dof, loc=mean, scale=sem)

print(f"Выборочное среднее: {mean:.2f}")
print(f"95% доверительный интервал для среднего: [{ci[0]:.2f}, {ci[1]:.2f}]")