Что такое Apache Airflow и для чего он используется?

Question

Что такое Apache Airflow и для чего он используется?

Тип вопроса: MLOps и деплой моделей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Apache Airflow — это платформа с открытым исходным кодом для программируемого оркестрирования, планирования и мониторинга рабочих процессов (workflows). Её основная абстракция — DAG (Directed Acyclic Graph), который представляет собой набор задач с зависимостями.

Ключевые концепции:

DAG: Определяет workflow как код на Python. Каждый DAG имеет расписание (cron-выражение) и дату начала.
Operators (Операторы): Шаблоны для выполнения задач (например, PythonOperator, BashOperator, DockerOperator). Они определяют что делать.
Tasks: Конкретные экземпляры операторов в DAG.
Task Instances: Конкретное выполнение задачи в определённый момент времени.

Пример простого DAG для ETL-пайплайна:

from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime

def extract():
    # Код для извлечения данных
    return data

def transform(raw_data):
    # Код для трансформации
    return cleaned_data

def load(data_to_load):
    # Код для загрузки в хранилище
    pass

with DAG(
    dag_id='simple_etl',
    start_date=datetime(2023, 1, 1),
    schedule_interval='@daily'
) as dag:

    extract_task = PythonOperator(
        task_id='extract',
        python_callable=extract
    )

    transform_task = PythonOperator(
        task_id='transform',
        python_callable=transform,
        op_args=[extract_task.output]  # Зависимость по данным
    )

    load_task = PythonOperator(
        task_id='load',
        python_callable=load,
        op_args=[transform_task.output]
    )

    extract_task >> transform_task >> load_task  # Определение порядка

Типичные сценарии использования: Оркестрация ETL/ELT процессов, запуск ML-пайплайнов переобучения, автоматизация отчётов, управление инфраструктурой.

Ответ 18+ 🔞

Давай разберём эту штуку, которая называется Apache Airflow. Представь себе, что тебе нужно, чтобы куча скриптов и задач запускались сами, в правильном порядке, по расписанию, и ты бы мог на это всё смотреть, как они там ползают. Вот Airflow — это как раз такой надсмотрщик, ёпта, который всё это организует. Только не надо думать, что это какая-то магия. Это просто инструмент, который иногда доводит до белого каления, когда он внезапно решает, что твой DAG — говно, и запускать его не будет.

Основная его фишка — DAG (Directed Acyclic Graph). По-русски — направленный ациклический граф. Звучит страшно, но на деле это просто набор задач, где одна зависит от другой, и они не могут ходить по кругу, иначе будет пиздец. Это как рецепт: сначала достань яйца (задача 1), потом разбей (задача 2), потом пожарь (задача 3). Нельзя начать жарить, если яйца не разбиты. И уж точно нельзя, чтобы жарка вела обратно к «достать яйца» — это уже циклическая хуйня, которая сломает всю логику.

Из чего это всё собрано:

DAG: Это сам рецепт, написанный на Python. Тут ты говоришь, как часто его готовить (расписание, типа @daily) и с какого числа начать.
Operators (Операторы): Это типа готовых действий. Хочешь выполнить питоновскую функцию? PythonOperator. Дёрнуть bash-команду? BashOperator. Запустить что-то в Docker? ДержиDockerOperator`. Они определяют, что делать.
Tasks: Это конкретные шаги в твоём рецепте. «Разбей яйца» — это задача, созданная из оператора.
Task Instances: А это уже конкретное исполнение. Не просто «разбей яйца», а «разбей яйца в 7 утра 1 января, блядь».

Вот смотри, как выглядит простейший пайплайн для ETL:

from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime

def extract():
    # Код для извлечения данных
    return data

def transform(raw_data):
    # Код для трансформации
    return cleaned_data

def load(data_to_load):
    # Код для загрузки в хранилище
    pass

with DAG(
    dag_id='simple_etl',
    start_date=datetime(2023, 1, 1),
    schedule_interval='@daily'
) as dag:

    extract_task = PythonOperator(
        task_id='extract',
        python_callable=extract
    )

    transform_task = PythonOperator(
        task_id='transform',
        python_callable=transform,
        op_args=[extract_task.output]  # Зависимость по данным
    )

    load_task = PythonOperator(
        task_id='load',
        python_callable=load,
        op_args=[transform_task.output]
    )

    extract_task >> transform_task >> load_task  # Определение порядка

Видишь? Всё просто, как три копейки. Создали три задачи и сказали стрелочками, в каком порядке их гонять. extract_task >> transform_task — это значит «сначала экстракт, потом трансформ». Волнение ебать только начинается, когда таких задач становится овердохуища, и они начинают падать по непонятным причинам.

Где эту штуку втыкают? Да везде, где нужно автоматизировать рутину:

Гонять ETL/ELT процессы из базы в базу.
Запускать ML-пайплайны, чтобы модель сама переучивалась.
Собирать и рассылать отчёты.
Управлять какой-нибудь инфраструктурой.

Короче, инструмент мощный, но требует, чтобы э бошка думала, когда пишешь зависимости. А то получится манда с ушами, которая будет падать в три часа ночи и будить тебя смсками.

Видео-ответы

▶

Публичное собеседование #14: Python, API, Airflow, Async, DB, Net Middle | Июнь 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки