Ответ
- Грязные данные: пропуски, дубликаты, некорректные форматы. Решение: предобработка (fillna, drop_duplicates) и согласование форматов с источниками.
df = df.dropna(subset=['key_column'])
df['date'] = pd.to_datetime(df['date'], errors='coerce')
-
Несогласованные метрики: разные отделы считают одни и те же KPI по-разному. Решение: документация и согласование методик расчета.
-
Долгие запросы: большие таблицы без индексов. Оптимизация через индексы, партицирование или сэмплирование.
-
Неожиданные аномалии: резкие скачки данных. Анализ причин (баг в логгере, маркетинговая акция) и коммуникация с командой.
-
Изменение требований: заказчик меняет постановку задачи mid-project. Фиксация требований в ТЗ и приоритизация гибкости кода.
-
Визуализация: перегруженные дашборды. Упрощение через focus на ключевых метриках и A/B тестирование UI.