Ответ
Я работаю инженером данных более 2.5 лет. Мой основной опыт сосредоточен на построении и поддержке хранилищ данных (DWH) и ETL-процессов.
Ключевые проекты и задачи:
- Миграция хранилища: Перенос данных и бизнес-логики с MS SQL Server на Greenplum. Это позволило значительно увеличить скорость выполнения аналитических запросов за счёт эффективного партиционирования и MPP-архитектуры Greenplum.
- Построение ETL-конвейеров: Разработка и поддержка DAG в Apache Airflow для регулярной загрузки данных из операционных систем (ODS) в аналитическое хранилище.
- Создание витрин данных: Разработка агрегированных витрин для аналитиков на SQL с использованием оконных функций, что упростило и ускорило их работу.
Основной стек технологий:
- Обработка данных: Python (Pandas, Airflow SDK), dbt, SQL (оконные и агрегатные функции, оптимизация запросов).
- Хранилища данных: Greenplum, MS SQL Server, PostgreSQL, Hadoop (HDFS).
- Оркестрация: Apache Airflow.
Ответ 18+ 🔞
А, ну слушай, вот история моей трудовой деятельности, если вкратце. Я в этой инженерной ебучке с данными уже больше двух с половиной лет топчусь. Основная моя песня — это строить и поддерживать эти ваши хранилища данных, ну и ETL-процессы, куда ж без них.
Чем конкретно занимался, пока мозги не начали плавиться:
- Миграция хранилища, ёпта. Это был тот ещё цирк. Тащил данные и всю бизнес-логику с какого-то старого MS SQL Server на Greenplum. И знаешь, охуенно получилось — запросы аналитические теперь летают, как угорелые. Всё благодаря тому, что Greenplum — это такая штука, где можно данные по партициям грамотно разложить, и он их параллельно обрабатывает. Просто волшебство, а не система.
- Построение ETL-конвейеров. Короче, сидел и плодил эти DAG'и в Apache Airflow. Чтобы данные из операционок (этих ваших ODS) аккуратненько, по расписанию, переезжали в аналитическое хранилище. Иногда, конечно, они ломались так, что хотелось кричать «я тебя породил, я тебя и убью», но в целом — рабочий инструмент.
- Создание витрин данных. Ну это для наших аналитиков, чтобы им жизнь мёдом не казалась. Писал на SQL всякие агрегации, использовал оконные функции — в общем, делал так, чтобы им не приходилось каждый раз велосипед изобретать. Они теперь кликают — и сразу всё готово. Удивление пиздец, правда?
На чём руки изжёг, основной стек:
- Обработка данных: Python (Pandas, Airflow SDK), dbt, SQL (оконные функции, агрегаты, и постоянная оптимизация запросов, потому что иначе нихуя не быстро).
- Хранилища данных: Greenplum (любимчик), MS SQL Server (старина), PostgreSQL, Hadoop (HDFS — для больших и страшных данных).
- Оркестрация: Apache Airflow. Ну, куда ж без него. Иногда он меня бесит, но терпения ноль ебать — работа есть работа.