Как улучшить качество данных

«Как улучшить качество данных» — вопрос из категории Очистка и качество данных, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

1. Валидация данных
Проверяйте данные на соответствие ожидаемым форматам, диапазонам и логике. Например, возраст не может быть отрицательным.

import pandas as pd
df = pd.read_csv('data.csv')
df = df[df['age'] > 0]  # Отфильтровать некорректные значения

2. Обработка пропусков
Заполняйте пропуски медианой/средним или удаляйте строки, если их мало.

df['income'].fillna(df['income'].median(), inplace=True)

3. Устранение дубликатов
Удаляйте полные или частичные дубликаты.

df.drop_duplicates(inplace=True)

4. Нормализация и стандартизация
Приводите данные к единому формату (даты, категории).

5. Мониторинг и документация
Фиксируйте изменения, чтобы отслеживать качество данных.

6. Внешние проверки
Сравнивайте данные с надежными источниками.