Какие типы индексов, помимо B-Tree, используются в базах данных? Расскажите об их особенностях и сценариях использования.

Ответ

Хотя B-Tree является стандартным и наиболее универсальным типом индекса, для разных задач существуют более эффективные альтернативы.

Основные типы индексов:

Hash-индекс
- Как работает: Вычисляет хэш от значения колонки и хранит его как ключ.
- Сценарии: Идеален для запросов на точное равенство (WHERE email = 'user@example.com').
- Плюсы: Очень быстрый поиск (в среднем O(1)).
- Минусы: Бесполезен для диапазонных запросов (<, >, BETWEEN), так как хэши не упорядочены.
GIN (Generalized Inverted Index)
- Как работает: Создает "обратный" индекс для составных типов данных (массивы, JSONB, полнотекстовый поиск). Он индексирует каждый элемент внутри значения. Например, для массива [1, 5, 10] будут созданы записи для 1, 5 и 10.
- Сценарии: Поиск по элементам в массивах (tags @> ARRAY['go']), по ключам или значениям в JSONB, полнотекстовый поиск.
- Пример в PostgreSQL: CREATE INDEX idx_gin ON documents USING GIN (data);
GiST (Generalized Search Tree)
- Как работает: Это не конкретный тип индекса, а шаблон для построения различных схем индексирования для сложных типов данных.
- Сценарии: Геопространственные данные (PostGIS использует GiST для поиска точек в полигоне), полнотекстовый поиск, работа с диапазонами.
LSM-дерево (Log-Structured Merge-Tree)
- Как работает: Оптимизировано для систем с высокой интенсивностью записи. Данные сначала пишутся в быструю структуру в памяти (MemTable), а затем периодически сбрасываются на диск в виде отсортированных файлов (SSTable), которые позже сливаются в фоновом режиме.
- Сценарии: Используется в NoSQL базах данных, где скорость записи критична (Cassandra, ScyllaDB, RocksDB, LevelDB).
Bitmap-индекс
- Как работает: Создает битовую карту для каждого уникального значения в колонке. Каждый бит в карте соответствует строке и указывает, присутствует ли там данное значение.
- Сценарии: Колонки с низкой кардинальностью (малым количеством уникальных значений), например, пол ('М', 'Ж'), статус_заказа ('new', 'processing', 'shipped'). Очень эффективен для сложных запросов с несколькими AND/OR.

Когда что выбирать?

Как Go-разработчик, при проектировании схемы БД, вы должны думать о типах запросов:

Нужен поиск по диапазону (age > 30) или сортировка? -> B-Tree (стандартный).
Нужен только поиск по точному совпадению (user_id = ?)? -> Hash.
Ищете внутри JSON или массива? -> GIN.
Работаете с гео-данными? -> GiST.
Проектируете систему с огромным потоком записей? -> Посмотрите в сторону СУБД на LSM-деревьях.