Что такое разреженный (sparse) индекс в ClickHouse и как он работает?

Question

Что такое разреженный (sparse) индекс в ClickHouse и как он работает?

Тип вопроса: Базы данных Вероятность: 10% Категория: Golang Разработчик

Ответ

Разреженный (sparse) индекс в ClickHouse — это основной механизм индексации, который работает не с каждой отдельной строкой, а с большими блоками данных, называемыми гранулами. Его главная задача — быстро отсекать большие объемы данных, которые точно не содержат искомых значений, минимизируя количество чтений с диска.

Как это работает:

Разбиение на гранулы: Все данные в таблице MergeTree физически упорядочены по первичному ключу (ORDER BY). Эти отсортированные данные делятся на гранулы. По умолчанию одна гранула содержит 8192 строки.
Создание "засечек": Для первой строки каждой гранулы ClickHouse создает запись в файле индекса (primary.idx). Эта запись (или "засечка") содержит значения столбцов первичного ключа для этой строки.
Пропуск данных при запросе: Когда выполняется запрос с условием WHERE по первичному ключу (например, WHERE EventDate = '2023-10-26'), ClickHouse не сканирует все данные, а:
- Смотрит на "засечки" в файле индекса.
- Определяет, в каких диапазонах (гранулах) могут находиться искомые данные.
- Читает с диска только эти гранулы, пропуская остальные.

Пример:

-- Таблица отсортирована по UserID и EventDate
CREATE TABLE user_actions (
    UserID UInt32,
    EventDate Date,
    Action String
) ENGINE = MergeTree()
ORDER BY (UserID, EventDate);

При запросе WHERE UserID = 123 AND EventDate > '2023-01-01' ClickHouse будет использовать индекс, чтобы найти гранулы, где UserID равен 123, и пропустит все гранулы, относящиеся к другим пользователям. Затем внутри найденных гранул он будет искать нужные даты.

Ключевое преимущество: Такой подход позволяет хранить индекс, который в сотни раз меньше самих данных, и при этом эффективно работать с огромными таблицами, быстро фильтруя данные по диапазонам.

Ответ 18+ 🔞

Да ты послушай, что за дичь творится в ClickHouse с этими индексами! Это ж не какая-то там поштучная индексация, где на каждую строчку свой ярлык вешают — нет, блядь. Тут всё с размахом, по-русски, гранулами, сука!

Представь себе: данные у тебя лежат, аккуратненько отсортированные, как солдаты на параде, по тому порядку, который ты в ORDER BY указал. И вот эти стройные ряды делят на отряды — гранулы. В каждом отряде, по умолчанию, 8192 бойца-строчки. И для каждого такого отряда начальство — то есть ClickHouse — делает одну-единственную пометку в блокнотике. Записывает, какие значения ключевых столбцов у первого парня в строю. Этот блокнотик и есть файл индекса, primary.idx. Просто, как три копейки, а работает — овердохуища!

Как это на практике выглядит:

Допустим, у тебя таблица user_actions, и порядок такой: ORDER BY (UserID, EventDate). Ты пишешь запрос: WHERE UserID = 123 AND EventDate > '2023-01-01'.

И что делает эта умная система? Она не начинает, как дурак, перелопачивать все терабайты подряд! Она, хитрая жопа, открывает свой блокнотик с засечками и быстренько прикидывает: «Ага, пользователь с ID 123 у нас начинается вот в этой грануле, а заканчивается вот в этой. Всё, что между ними — потенциально наше. А всё, что до и после — на хуй не нужно». И читает с диска только эти определённые отряды данных, а остальные — даже не трогает! Экономия времени и ресурсов — просто пиздец!

И главный прикол, ёпта: Индекс-то получается в сотни раз меньше самих данных! Никакого раздувания, никакой лишней писанины. Одна метка на целый блок — и всё. Для охуенно больших таблиц — идеально. Быстро отсекает огромные куски мусора, которые тебе точно не нужны.

Вот так вот, без лишнего пафоса и навороченных алгоритмов, а работает — загляденье. Чистая магия, блядь, на уровне здравого смысла и эффективности!