Что такое Репрезентативность

«Что такое Репрезентативность» — вопрос из категории Статистика и теория вероятностей, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Репрезентативность — это свойство выборки отражать характеристики генеральной совокупности. Если выборка репрезентативна, её статистические показатели (среднее, дисперсия и т. д.) близки к показателям всей популяции.

Ключевые аспекты:

  • Случайность отбора — каждый элемент популяции должен иметь равные шансы попасть в выборку.
  • Размер выборки — должен быть достаточным для минимизации ошибки.
  • Отсутствие смещений — например, при опросе нельзя учитывать только активных пользователей.

Пример проверки в Python:

import pandas as pd

# Генеральная совокупность
population = pd.Series([10, 20, 30, 40, 50])
# Выборка
sample = population.sample(n=3, random_state=42)

print("Среднее популяции:", population.mean())
print("Среднее выборки:", sample.mean())

Если разница между средними незначительна, выборку можно считать репрезентативной.