Какое распределение ожидаешь получить при сборе значений зарплаты по России?

«Какое распределение ожидаешь получить при сборе значений зарплаты по России?» — вопрос из категории Статистика и теория вероятностей, который задают на 26% собеседований Data Scientist / ML Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

При сборе данных о зарплатах по России ожидается правостороннее асимметричное распределение с длинным хвостом в сторону высоких значений. Такое распределение часто хорошо аппроксимируется логарифмически нормальным (log-normal) распределением.

Характеристики распределения:

Мода < Медиана < Среднее: Большинство наблюдений (мода) сосредоточено в левой, нижней части распределения. Среднее арифметическое сильно смещено вправо редкими, но экстремально высокими значениями.
Длинный правый хвост: Образуется за счёт высоких зарплат топ-менеджеров, специалистов редких профессий, успешных предпринимателей и работников в высокомаржинальных отраслях (IT, финансы).
Потенциальная полимодальность: Распределение может иметь несколько пиков из-за сильной региональной дифференциации (Москва/СПб vs регионы), различий между отраслями (нефтегаз vs образование) и типами занятости (наёмные работники vs самозанятые).

Практический пример анализа в Python:

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Генерация синтетических данных, имитирующих лог-нормальное распределение зарплат
np.random.seed(42)
# Параметры для логнормального распределения: mu и sigma - параметры нормального распр. логарифма зарплат
mu, sigma = 11.2, 0.65  # Подобраны для реалистичного диапазона
log_salaries = np.random.normal(mu, sigma, 5000)
salaries = np.exp(log_salaries)  # Преобразуем обратно в рубли

# Визуализация
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 1. Гистограмма на обычной шкале
axes[0].hist(salaries, bins=50, edgecolor='black', alpha=0.7)
axes[0].axvline(np.median(salaries), color='red', linestyle='--', label=f'Медиана: {np.median(salaries):.0f} руб')
axes[0].axvline(np.mean(salaries), color='green', linestyle='--', label=f'Среднее: {np.mean(salaries):.0f} руб')
axes[0].set_title('Распределение зарплат (линейная шкала)')
axes[0].set_xlabel('Зарплата, руб')
axes[0].set_ylabel('Частота')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# 2. Гистограмма на логарифмической шкале по оси X (должна выглядеть как нормальное распределение)
axes[1].hist(salaries, bins=50, edgecolor='black', alpha=0.7)
axes[1].set_xscale('log')
axes[1].set_title('Распределение зарплат (логарифмическая шкала X)')
axes[1].set_xlabel('Зарплата, руб (log scale)')
axes[1].set_ylabel('Частота')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

Ответ

Похожие вопросы на собеседовании Data Scientist / ML Инженер

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки