Расскажи про Big Data стек

Question

Расскажи про Big Data стек

Тип вопроса: Распределенные системы Вероятность: 33% Категория: Data Инженер

Ответ

В моей практике работы с распределенными системами я использовал различные комбинации технологий для обработки больших данных. Стек обычно формируется вокруг конкретных задач: пакетной обработки, стриминга или аналитики.

Ключевые компоненты, с которыми я работал:

Хранение: Для сырых данных и дампов использовал HDFS и Amazon S3. Для работы с оперативными данными, требующими низкой задержки, применял Apache Cassandra.
Обработка: Основной движок для пакетной ETL-обработки — Apache Spark (написанный на Scala/PySpark). Для задач, унаследованных от старого стека, иногда приходилось поддерживать Hadoop MapReduce.
Стриминг: Для построения пайплайнов реального времени использовал связку Apache Kafka (как шину событий) и Apache Flink для stateful-обработки потока.
Аналитические запросы: Для ad-hoc-аналитики и дашбордов разворачивали ClickHouse. Для SQL-запросов к данным в S3/HDFS использовали Trino (ранее Presto).
Оркестрация: Все пайплайны (и пакетные, и потоковые) управлялись через Apache Airflow, где DAG'ы описывали зависимости и расписание.

Пример из практики (PySpark): Пришлось оптимизировать задачу агрегации логов для формирования суточных отчетов. Исходные данные (~10 TB в день в S3 в формате Parquet) читались, группировались по ключу и агрегировались.

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, count

spark = SparkSession.builder 
    .appName("daily_log_aggregation") 
    .config("spark.sql.adaptive.enabled", "true") 
    .getOrCreate()

# Чтение партиционированных данных из S3
df = spark.read.parquet("s3a://logs-bucket/dt=2023-10-01/*")

# Агрегация с перераспределением данных для избежания skew
aggregated_df = df 
    .repartition(200, col("user_id"))   # Увеличиваем параллелизм для тяжелого ключа
    .groupBy("user_id", "event_type") 
    .agg(
        sum("value").alias("total_value"),
        count("*").alias("event_count")
    )

# Запись результата обратно в S3 для дальнейшего использования
target_path = "s3a://results-bucket/daily_agg/dt=2023-10-01"
aggregated_df.write.mode("overwrite").parquet(target_path)

Выбор конкретных технологий всегда был компромиссом между требованиями к задержке, пропускной способности, консистентности и сложностью поддержки.

Ответ 18+ 🔞

Блин, вот смотри, когда работаешь с этими распределёнными системами и большими данными — там вообще ёперный театр начинается. Каждый раз приходится собирать такой стек технологий, чтобы он не развалился под нагрузкой, а то будет тебе хиросима и нигерсраки, честное слово. Всё зависит от задачи: нужно ли тебе данные пачками гонять, стримить их в реальном времени или просто аналитику какую-то ебать.

Вот на чём обычно руки пачкал:

Хранилище: Для всякого сырья и дампов — классика, HDFS или Amazon S3. А вот если нужен быстрый доступ к оперативным данным, с минимальной задержкой, тут без Apache Cassandra никуда, она просто зверь.
Обработка: Для основной ETL-возни пачками — Apache Spark (на Scala или PySpark). Иногда, если досталась старая система, приходилось и с Hadoop MapReduce воевать, это просто пиздец, старьё же.
Стриминг: Чтобы данные текли рекой в реальном времени, ставил связку Apache Kafka (как главную артерию для событий) и Apache Flink — он уже с состоянием работает, умный, блядь.
Аналитика: Когда нужно быстро что-то посчитать и дашборды нарисовать — ClickHouse вне конкуренции. А если надо SQL-запросы прямо к данным в S3 или HDFS гонять — то Trino (он же бывший Presto), чувак.
Оркестрация: Чтобы весь этот цирк не разбежался, всё управлялось через Apache Airflow. Там в DAG'ах расписываешь, кто за кем и когда должен бежать — и спи спокойно.

Вот реальный случай, до сих пор вздрачиваю (PySpark): Пришлось оптимизировать задачу по агрегации логов для суточных отчётов. Данные — просто овердохуища, где-то 10 TB в день в S3, в формате Parquet. Надо было прочитать, сгруппировать и посчитать кучу всего.

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, count

spark = SparkSession.builder 
    .appName("daily_log_aggregation") 
    .config("spark.sql.adaptive.enabled", "true") 
    .getOrCreate()

# Чтение партиционированных данных из S3
df = spark.read.parquet("s3a://logs-bucket/dt=2023-10-01/*")

# Агрегация с перераспределением данных для избежания skew
aggregated_df = df 
    .repartition(200, col("user_id"))   # Увеличиваем параллелизм для тяжелого ключа
    .groupBy("user_id", "event_type") 
    .agg(
        sum("value").alias("total_value"),
        count("*").alias("event_count")
    )

# Запись результата обратно в S3 для дальнейшего использования
target_path = "s3a://results-bucket/daily_agg/dt=2023-10-01"
aggregated_df.write.mode("overwrite").parquet(target_path)

В общем, выбор технологий — это вечный компромисс, ёпта. С одной стороны — задержка и скорость, с другой — консистентность и надёжность, а с третьей — сложность поддержки всей этой мартышлюшки. Главное — не охуеть от количества вариантов и не наделать архитектурных костылей.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки