Что такое ЦПТ

«Что такое ЦПТ» — вопрос из категории Метрики и аналитика данных, который задают на 24% собеседований Бизнес Аналитик. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Центральная предельная теорема (ЦПТ) утверждает, что при достаточно большом объёме выборки распределение выборочного среднего стремится к нормальному распределению, независимо от исходного распределения данных. Это ключевая концепция в статистике, позволяющая применять методы, основанные на нормальном распределении, даже если исходные данные не нормальны.

Пример на Python:

import numpy as np
import matplotlib.pyplot as plt

# Генерация данных из экспоненциального распределения
data = np.random.exponential(scale=1, size=1000)

# Вычисление выборочных средних для 1000 выборок по 30 элементов
sample_means = [np.mean(np.random.choice(data, 30)) for _ in range(1000)]

# Визуализация
plt.hist(sample_means, bins=30, density=True)
plt.title('Распределение выборочных средних')
plt.show()

Нюансы:

  • Теорема работает при n ≥ 30 (эмпирическое правило)
  • Исходное распределение должно иметь конечные матожидание и дисперсию
  • Скорость сходимости зависит от "нормальности" исходного распределения