Ответ
Я работаю инженером данных более 2.5 лет. Мой основной опыт сосредоточен на построении и поддержке хранилищ данных (DWH) и ETL-процессов.
Ключевые проекты и задачи:
- Миграция хранилища: Перенос данных и бизнес-логики с MS SQL Server на Greenplum. Это позволило значительно увеличить скорость выполнения аналитических запросов за счёт эффективного партиционирования и MPP-архитектуры Greenplum.
- Построение ETL-конвейеров: Разработка и поддержка DAG в Apache Airflow для регулярной загрузки данных из операционных систем (ODS) в аналитическое хранилище.
- Создание витрин данных: Разработка агрегированных витрин для аналитиков на SQL с использованием оконных функций, что упростило и ускорило их работу.
Основной стек технологий:
- Обработка данных: Python (Pandas, Airflow SDK), dbt, SQL (оконные и агрегатные функции, оптимизация запросов).
- Хранилища данных: Greenplum, MS SQL Server, PostgreSQL, Hadoop (HDFS).
- Оркестрация: Apache Airflow.