Ответ
Набор инструментов для валидации и анализа данных:
-
SQL и реляционные СУБД (PostgreSQL, MySQL):
- Для чего: Проверка целостности данных, поиск аномалий, подготовка тестовых данных.
- Пример запроса для поиска дубликатов:
SELECT user_id, COUNT(*) AS duplicate_count FROM orders GROUP BY user_id HAVING COUNT(*) > 1;
-
Python с библиотеками pandas и numpy:
- Для чего: Сложная обработка больших наборов данных, статистический анализ, генерация отчетов.
- Пример проверки на пропущенные значения:
import pandas as pd df = pd.read_csv('data.csv') missing_values = df.isnull().sum() print(missing_values[missing_values > 0])
-
Excel / Google Таблицы:
- Для чего: Быстрый визуальный анализ, построение сводных таблиц и простых графиков для небольших датасетов.