Сталкивался ли с объединением потоков данных в реальном времени (stream-stream joins)?

Question

Сталкивался ли с объединением потоков данных в реальном времени (stream-stream joins)?

Тип вопроса: SQL и базы данных Вероятность: 33% Категория: Data Инженер

Ответ

Да, реализовывал stream-stream joins в нескольких проектах, в основном используя Apache Flink. Классический пример — обогащение потока кликов по рекламе (clicks_stream) информацией о соответствующих рекламных кампаниях (campaigns_stream), которая может обновляться.

Основные сложности и подходы к их решению:

Несовпадение временных меток (skew): События из разных потоков приходят с задержкой. Решение — использование Watermarks для определения, когда можно считать окно данных «закрытым» и эмиттить результат.
Хранение состояния: Для join необходимо хранить события из одного потока, ожидая прихода соответствующих событий из другого. В Flink это состояние хранится в managed state (RocksDB). Критично настраивать TTL для этого состояния, чтобы оно не росло бесконечно.
Типы joins: В зависимости от задачи использовал разные стратегии.

Пример реализации Interval Join во Flink (Java API):

DataStream<ClickEvent> clicks = ...;
DataStream<CampaignUpdate> campaigns = ...;

// Присваиваем водяные знаки и ключи
clicks
    .assignTimestampsAndWatermarks(<стратегия>)
    .keyBy(click -> click.getCampaignId())
    .intervalJoin(campaigns
        .assignTimestampsAndWatermarks(<стратегия>)
        .keyBy(campaign -> campaign.getId())
    )
    .between(Time.minutes(-5), Time.minutes(1)) // Клик должен быть в интервале от 5 мин до кампании до 1 мин после
    .process(new ProcessJoinFunction<ClickEvent, CampaignUpdate, EnrichedClick>() {
        @Override
        public void processElement(ClickEvent click, CampaignUpdate campaign, Context ctx, Collector<EnrichedClick> out) {
            out.collect(new EnrichedClick(click, campaign.getDetails()));
        }
    });

Альтернатива в Spark Structured Streaming (Python):

# Определяем водяные знаки для каждого потока
clicks_with_watermark = clicks_df 
    .withWatermark("click_time", "2 minutes") 
    .select("campaign_id", "click_time", "user_id")

campaigns_with_watermark = campaigns_df 
    .withWatermark("update_time", "10 minutes") 
    .select("campaign_id", "update_time", "campaign_name", "budget")

# Выполняем join с условием по времени
joined_stream = clicks_with_watermark.join(
    campaigns_with_watermark,
    expr("""
        campaign_id = campaign_id AND
        click_time >= update_time AND
        click_time <= update_time + interval 1 hour
    """),
    "leftOuter"  # Чтобы получить клики даже без актуальной кампании
)

Ключевые выводы из практики:

Мониторинг состояния: Необходимо внимательно следить за размером состояния в операторах join и настраивать соответствующий TTL.
Выбор окна: Правильно выбранный интервал join — компромисс между полнотой данных (большое окно) и потреблением памяти/задержкой (малое окно).
Тестирование: Такие пайплайны особенно сложно тестировать. Мы использовали подход с «впрыском» тестовых событий с конкретными временными метками в симуляцию runtime Flink.

Ответ 18+ 🔞

А, ну это же классика, ебать мои старые костыли! Stream-stream join — это когда два потока данных, как два пьяных мужика на дискотеке, пытаются найти друг друга в темноте, а временные метки у них пляшут как угорелые.

Реализовывал эту пиздопроебибну в основном на Apache Flink. Типичный сценарий — у тебя летят клики по рекламе, а параллельно кто-то там обновляет настройки самих рекламных кампаний. И надо это всё сшить, чтобы понять, по какой конкретно кампании юзер тыкнул.

Основные засады, на которые можно наступить:

Временной разброд (skew): События из разных потоков приходят, когда им вздумается. Одно уже приплыло, а его пару ещё хуй с горы видно. Решение — Watermarks, этакие маячки, которые говорят: «Всё, ребята, события до такого-то времени уже вряд ли будут, можно начинать соединять, пока не лопнули».
Хранение состояния: Чтобы join сделать, надо события из одного потока придержать, пока не приплывёт пара из другого. В Flink это всё складируется в managed state (чаще всего в RocksDB). И тут главное — не забыть поставить TTL, а то состояние раздуется до овердохуища и кластер накроется медным тазом. Сам такое видел, волнение ебать.
Типы joins: Тут уже от задачи зависит — inner, outer, interval. Каждый для своего случая.

Вот, смотри, как примерно выглядит Interval Join на Flink (Java): (Блок кода оставляю как есть, я его не трогаю)

DataStream<ClickEvent> clicks = ...;
DataStream<CampaignUpdate> campaigns = ...;

// Присваиваем водяные знаки и ключи
clicks
    .assignTimestampsAndWatermarks(<стратегия>)
    .keyBy(click -> click.getCampaignId())
    .intervalJoin(campaigns
        .assignTimestampsAndWatermarks(<стратегия>)
        .keyBy(campaign -> campaign.getId())
    )
    .between(Time.minutes(-5), Time.minutes(1)) // Клик должен быть в интервале от 5 мин до кампании до 1 мин после
    .process(new ProcessJoinFunction<ClickEvent, CampaignUpdate, EnrichedClick>() {
        @Override
        public void processElement(ClickEvent click, CampaignUpdate campaign, Context ctx, Collector<EnrichedClick> out) {
            out.collect(new EnrichedClick(click, campaign.getDetails()));
        }
    });

А на Spark Structured Streaming (Python) это выглядит как-то так: (И этот блок тоже нетронутый)

# Определяем водяные знаки для каждого потока
clicks_with_watermark = clicks_df 
    .withWatermark("click_time", "2 minutes") 
    .select("campaign_id", "click_time", "user_id")

campaigns_with_watermark = campaigns_df 
    .withWatermark("update_time", "10 minutes") 
    .select("campaign_id", "update_time", "campaign_name", "budget")

# Выполняем join с условием по времени
joined_stream = clicks_with_watermark.join(
    campaigns_with_watermark,
    expr("""
        campaign_id = campaign_id AND
        click_time >= update_time AND
        click_time <= update_time + interval 1 hour
    """),
    "leftOuter"  # Чтобы получить клики даже без актуальной кампании
)

Что я вынес для себя, чувак:

Следи за состоянием как ястреб: Размер state в join-операторах — это святое. Мониторь его, иначе будет тебе хиросима. TTL — твой лучший друг.
Интервал — это палка о двух концах: Сделаешь окно слишком большим — память сожрёт, задержка вырастет. Сделаешь маленьким — половина событий разойдётся мимо, и результат будет хуйня. Нужен баланс.
Тестирование — отдельная песня: Отлаживать эту штуку — то ещё удовольствие. Мы, например, тупо гоняли тесты, которые «впрыскивали» события с заданными временными метками прямо в симуляцию рантайма Flink. Иначе доверия ебать ноль, что в продакшене не посыпется.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки