Что такое Sigma (σ) в статистике? — пример ответа на собеседовании Data Scientist / ML Инженер

Что такое sigma (σ) в статистике?

«Что такое sigma (σ) в статистике?» — вопрос из категории Статистика и теория вероятностей, который задают на 26% собеседований Data Scientist / ML Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Сигма (σ) — это общепринятое обозначение стандартного отклонения (standard deviation) генеральной совокупности. Это наиболее распространенная мера рассеивания (разброса) данных вокруг их среднего значения (μ).

Формула для генеральной совокупности: σ = sqrt( Σ (x_i - μ)² / N ) где x_i — каждое значение, μ — среднее по совокупности, N — размер совокупности.

Ключевая интерпретация: Стандартное отклонение показывает, насколько типично значения отклоняются от среднего. Малое σ означает, что данные сгруппированы близко к среднему, большое σ — что они сильно разбросаны.

Практический расчет в Python:

import numpy as np

# Данные генеральной совокупности (редкий случай на практике)
population_data = [10, 12, 14, 16, 18]
sigma = np.std(population_data)  # ddof=0 по умолчанию
print(f"σ (стандартное отклонение совокупности) = {sigma:.2f}")
# Вывод: σ = 2.83

# Данные выборки (гораздо более частый случай)
sample_data = [10, 12, 14, 16, 18]
sample_std = np.std(sample_data, ddof=1)  # Используем N-1 в знаменателе
print(f"s (несмещенное стандартное отклонение выборки) = {sample_std:.2f}")
# Вывод: s = 3.16

Важное различие: В реальных задачах мы почти всегда работаем с выборкой, а не со всей совокупностью. Для получения несмещенной оценки стандартного отклонения генеральной совокупности по выборке используется формула с N-1 в знаменателе (коррекция Бесселя). В NumPy это параметр ddof=1 (Delta Degrees of Freedom).

Эмпирическое правило (68-95-99.7) для нормального распределения:

Около 68% данных лежат в пределах ±1σ от среднего.
Около 95% данных лежат в пределах ±2σ от среднего.
Около 99.7% данных лежат в пределах ±3σ от среднего. Это правило — основа для построения доверительных интервалов и выявления выбросов (например, точки за пределами 3σ часто считаются аномальными).

Ответ

Похожие вопросы на собеседовании Data Scientist / ML Инженер

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки