Какие ищешь условия

«Какие ищешь условия» — вопрос из категории Софт-скиллы, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый пример ответа, который можно адаптировать под свой опыт.

Ответ

При поиске данных аналитик проверяет:

  1. Полноту — отсутствие пропусков в ключевых полях
  2. Консистентность — соответствие форматов и типов данных
  3. Аномалии — выбросы, некорректные значения (например, отрицательный возраст)
  4. Дубликаты — повторяющиеся записи
  5. Логику — соответствие бизнес-правилам (например, дата заказа ≤ даты доставки)

Пример проверки на пропуски в Pandas:

df.isnull().sum()

И поиска аномалий:

df[(df['age'] < 0) | (df['age'] > 120)]