Использовалось ли на ваших проектах автоматическое партиционирование таблиц?

Question

Использовалось ли на ваших проектах автоматическое партиционирование таблиц?

Тип вопроса: SQL и базы данных Вероятность: 33% Категория: Data Инженер

Ответ

Да, автоматическое партиционирование активно использовалось для управления большими таблицами и оптимизации производительности.

1. В облачных хранилищах данных (BigQuery, Snowflake):

Партиционирование по дате: Самый частый сценарий. BigQuery автоматически создает партиции при вставке данных в колонку типа DATE или TIMESTAMP.

-- Создание таблицы с партиционированием по дате и кластеризацией
CREATE TABLE `project.analytics.user_sessions` (
user_id STRING,
session_id STRING,
event_timestamp TIMESTAMP,
page_views INT
)
PARTITION BY DATE(event_timestamp)
CLUSTER BY user_id
OPTIONS (
partition_expiration_days = 365, -- Автоматическое удаление старых партиций
require_partition_filter = TRUE -- Обязательный фильтр для запросов (best practice)
);
-- Запрос с фильтром по партиции сканирует только нужные данные
SELECT COUNT(*) FROM `project.analytics.user_sessions`
WHERE DATE(event_timestamp) = '2024-05-15';

2. В Apache Spark при записи в файловые хранилища (S3, HDFS):

Динамическое партиционирование по колонкам при записи в форматах Parquet или ORC.

# PySpark: Автоматическое создание структуры каталогов по партициям
df.write 
.mode("overwrite") 
.partitionBy("country", "year", "month") 
.parquet("s3://my-data-lake/events/")
# Результат: s3://my-data-lake/events/country=US/year=2024/month=05/...

3. В PostgreSQL (декларативное партиционирование):

Настройка партиционированных таблиц с использованием PARTITION BY RANGE или LIST. Хотя создание новых партиций часто требует скриптов, процесс можно автоматизировать через триггеры или задания (cron, pg_cron).

Преимущества автоматического партиционирования:

Ускорение запросов: СУБД читает только релевантные партиции (Partition Pruning).
Эффективное управление данными: Упрощается архивация или удаление старых данных (например, DROP PARTITION).
Снижение стоимости в облаке: В BigQuery и Snowflake стоимость запроса зависит от объема обработанных данных, а партиционирование его уменьшает.

Ответ 18+ 🔞

Ну слушай, история-то простая, как три копейки, но если её не понять — потом сиди и плачь, как дурак. Автоматическое партиционирование — это такая штука, которая сама за тебя раскладывает твои овердохуища данных по аккуратным полочкам. Чтобы потом не рыться в этой куче, как слепой крот, а сразу брать нужное.

1. В этих ваших облачных штуках (BigQuery, Snowflake):

Партиционирование по дате: Это святое, ёпта. Самый частый случай. Закидываешь данные с временной меткой — а BigQuery уже сам, хитрая жопа, раскидывает их по дням.

-- Создаём табличку, которая сама будет дробиться по датам и кластеризоваться
CREATE TABLE `project.analytics.user_sessions` (
user_id STRING,
session_id STRING,
event_timestamp TIMESTAMP,
page_views INT
)
PARTITION BY DATE(event_timestamp) -- Вот тут магия и начинается
CLUSTER BY user_id
OPTIONS (
partition_expiration_days = 365, -- Старьё само накроется медным тазом через год
require_partition_filter = TRUE -- Жёсткая практика: фильтруй, сука, обязательно!
);
-- А теперь смотри, какой красивый запрос: он не всю таблицу скопом читает, а только нужный кусок
SELECT COUNT(*) FROM `project.analytics.user_sessions`
WHERE DATE(event_timestamp) = '2024-05-15'; -- И сканирует данных в разы меньше!

2. В Apache Spark, когда пишешь в S3 или HDFS:

Тут тоже всё автоматически, просто сказка. Говоришь «разбей по таким-то колонкам» при записи в Parquet — и он создаёт целую структуру папок. Удобно до безобразия.

# PySpark: Сказал — и забыл. Сам разложит по полочкам.
df.write 
.mode("overwrite") 
.partitionBy("country", "year", "month") 
.parquet("s3://my-data-lake/events/")
# На выходе получаешь: s3://my-data-lake/events/country=US/year=2024/month=05/...
# Красота, а не структура. Искать — одно удовольствие.

3. В PostgreSQL (декларативное партиционирование):

Ну, тут уже чуть больше возни, честно говоря. Объявляешь таблицу с PARTITION BY RANGE, но чтобы новые партиции сами плодились — надо либо триггеры городить, либо скрипты по расписанию гонять. Не то чтобы прям совсем «автоматически», но автоматизировать — можно.

А в чём, собственно, кайф, спросишь?

Запросы летают: База не тупо всю таблицу читает, а сразу отсекает лишнее (это называется Partition Pruning). Экономия времени — просто пиздец.
Управлять данными — раз плюнуть: Хочешь удалить старьё за 2019 год? Не надо DELETE с убийственными блокировками. Просто DROP PARTITION — и всё, нету партиции. Чисто, быстро, безболезненно.
В облаке — экономия бабла: В BigQuery и Snowflake платишь за объём отсканированных данных. Партиционирование этот объём режет, как бритва. Меньше отсканировал — меньше заплатил. Всё гениальное просто, ёпта.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки