Расскажи про опыт работы с Clickstream

Question

Расскажи про опыт работы с Clickstream

Тип вопроса: Аналитика и метрики Вероятность: 33% Категория: Data Инженер

Ответ

Я работал с обработкой Clickstream-данных для построения аналитических дашбордов и систем рекомендаций. Clickstream — это последовательность событий (просмотры, клики, скроллы) пользователя на сайте или в приложении.

Мой стек и задачи:

Сбор и инжекция: Настраивал отправку событий с фронтенда (через JavaScript SDK или Pixel) в Kafka. Использовал схему Avro для сериализации данных, чтобы обеспечить консистентность и эффективность.
```
// Пример события в Kafka
{
 "user_id": "u123",
 "session_id": "sess_abc",
 "event_type": "page_view",
 "page_url": "/product/123",
 "timestamp": 1678886400000
}
```
Обработка (Streaming & Batch):
- Реал-тайм пайплайны (Kafka Streams/Flink): Для агрегации ключевых метрик (например, активные пользователи за последние 5 минут) и обнаружения аномалий.
- Батч-обработка (Spark): Для глубокого анализа: построение воронок, вычисление долгосрочных метрик (LTV, retention).
```
# PySpark: Расчет средней глубины просмотра за сессию
from pyspark.sql import Window
from pyspark.sql import functions as F

window_spec = Window.partitionBy("session_id").orderBy("timestamp")
df_with_seq = df.withColumn("event_seq", F.row_number().over(window_spec))
avg_session_depth = df_with_seq.groupBy("session_id").agg(F.max("event_seq").alias("depth"))
```
Хранение и анализ: Загружал обработанные данные в ClickHouse для быстрой аналитики (ad-hoc запросы) и в S3 (в формате Parquet) как data lake для исторических данных и ML-моделей.
Сложности и решения:
- Дубликаты и потерянные события: Решал через идемпотентность обработки в Kafka и дедупликацию по event_id на этапе загрузки в хранилище.
- Семантика сессий: Реализовывал логику определения сессий (по таймауту) как в потоковой обработке, так и в SQL (используя LAG и условную агрегацию).
- Volume: Оптимизировал партиционирование в S3 по дате (dt=2023-01-01/) и использовал сжатие (Snappy, Zstd).

Результатом работы были дашборды в Tableau/Grafana для продукт-менеджеров и автоматические A/B-тесты.

Ответ 18+ 🔞

Да ты послушай, какой у меня был проект — про кликстримы, ёпта. Это когда за каждым пользователем следишь, как он по сайту ползает: что смотрит, куда тыкает, до какого места доскролливает. В общем, слежка тотальная, но легальная, для аналитики.

Чем я там, блядь, занимался и на чём:

Собирал и загонял данные: Настроил так, чтобы с фронтенда все события летели прямиком в Кафку. Чтобы не было бардака, упаковывал их в Avro — это такая схема, чтобы данные не превратились в тыкву и все поля на месте были.
```
// Вот примерно такая хуйня летела в топик
{
 "user_id": "u123",
 "session_id": "sess_abc",
 "event_type": "page_view",
 "page_url": "/product/123",
 "timestamp": 1678886400000
}
```
Обработка (Потоковая и Пачками):
- Поток (Kafka Streams/Flink): Чтобы начальство могло в реальном времени видеть, сколько народу на сайте и не накрылся ли он медным тазом. Считал, например, активных юзеров за последние пять минут.
- Пачки (Spark): Тут уже серьёзная аналитика: воронки, удержание, всякая долгосрочная хуйня вроде LTV. Писал код, от которого глаза на лоб лезут.
```
# На Spark считал, как глубоко люди заходят за сессию
from pyspark.sql import Window
from pyspark.sql import functions as F

window_spec = Window.partitionBy("session_id").orderBy("timestamp")
df_with_seq = df.withColumn("event_seq", F.row_number().over(window_spec))
avg_session_depth = df_with_seq.groupBy("session_id").agg(F.max("event_seq").alias("depth"))
```
Хранение: Обработанное добро пихал в ClickHouse — эта штука запросы отрабатывает быстрее, чем ты «ёб твою мать» скажешь. А сырые исторические данные — в S3, в формате Parquet, как data lake, чтобы ML-шники потом ковырялись.
Геморрой и как я с ним боролся:
- Дубли и потеряшки: События могли задвоиться или потеряться. Делал обработку идемпотентной в Кафке, а при загрузке в хранилище дедуплицировал по event_id. Доверия ебать ноль к сети, поэтому перестраховывался.
- Сессии: Определить, где одна сессия кончилась и другая началась — это отдельная песня. Писал логику и на стримах, и в SQL, с таймаутами и функцией LAG. Голова болела, но сделал.
- Объёмы: Данных было — овердохуища. Пришлось в S3 умно партиционировать по датам и жать посильнее, чтобы не разориться на хранилище.

В итоге накрутил дашборды в Tableau, чтобы менеджеры тыкали в красивые графики, и систему для A/B-тестов, которая сама решала, какой вариант лучше. В общем, пизда рулю, работа была.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки