Расскажи про свой опыт в инженерии данных

«Расскажи про свой опыт в инженерии данных» — вопрос из категории Софт-скиллы, который задают на 76% собеседований Data Инженер. Ниже — развёрнутый пример ответа, который можно адаптировать под свой опыт.

Ответ

Я работаю инженером данных более 2.5 лет. Мой основной опыт сосредоточен на построении и поддержке хранилищ данных (DWH) и ETL-процессов.

Ключевые проекты и задачи:

  • Миграция хранилища: Перенос данных и бизнес-логики с MS SQL Server на Greenplum. Это позволило значительно увеличить скорость выполнения аналитических запросов за счёт эффективного партиционирования и MPP-архитектуры Greenplum.
  • Построение ETL-конвейеров: Разработка и поддержка DAG в Apache Airflow для регулярной загрузки данных из операционных систем (ODS) в аналитическое хранилище.
  • Создание витрин данных: Разработка агрегированных витрин для аналитиков на SQL с использованием оконных функций, что упростило и ускорило их работу.

Основной стек технологий:

  • Обработка данных: Python (Pandas, Airflow SDK), dbt, SQL (оконные и агрегатные функции, оптимизация запросов).
  • Хранилища данных: Greenplum, MS SQL Server, PostgreSQL, Hadoop (HDFS).
  • Оркестрация: Apache Airflow.