Что такое колоночные СУБД? Приведите примеры и опишите их основные сценарии использования.

Question

Что такое колоночные СУБД? Приведите примеры и опишите их основные сценарии использования.

Тип вопроса: Базы данных Вероятность: 23% Категория: Golang Разработчик

Ответ

Колоночные (или столбцовые) СУБД — это системы управления базами данных, которые хранят данные по столбцам, а не по строкам, как это делают традиционные реляционные СУБД (например, PostgreSQL, MySQL).

Ключевые отличия и преимущества:

Хранение данных:
- Строковая СУБД: [id1, name1, value1]; [id2, name2, value2]
- Колоночная СУБД: [id1, id2]; [name1, name2]; [value1, value2]
Эффективное сжатие: Данные в одном столбце обычно однотипны и хорошо сжимаются, что экономит дисковое пространство.
Скорость агрегации: Запросы, которые анализируют подмножество столбцов (например, SELECT SUM(column_A) FROM table GROUP BY column_B), выполняются очень быстро, так как СУБД читает только данные нужных столбцов, пропуская остальные.

Основные сценарии использования:

OLAP (Online Analytical Processing): Аналитические запросы на больших объемах данных.
Big Data и аналитика: Хранилища данных (DWH), бизнес-аналитика (BI).
Данные временных рядов (Time-Series): Мониторинг, IoT, финансовые данные.

Примеры популярных колоночных СУБД:

ClickHouse:
- Описание: Высокопроизводительная СУБД с открытым исходным кодом для OLAP-запросов. Очень популярна в Go-сообществе.
- Go-драйвер: github.com/ClickHouse/clickhouse-go/v2
Apache Cassandra:
- Описание: Распределенная, высокодоступная NoSQL СУБД, которая использует колоночную модель хранения. Отлично справляется с высокой нагрузкой на запись.
- Go-драйвер: github.com/gocql/gocql
InfluxDB:
- Описание: Специализированная база данных для временных рядов. Широко используется для мониторинга и данных с сенсоров.
- Go-клиент: github.com/influxdata/influxdb-client-go/v2
VictoriaMetrics:
- Описание: Эффективная и простая в эксплуатации база данных временных рядов, часто используется как альтернатива Prometheus и InfluxDB. Написана на Go.

Недостатки:

Колоночные СУБД неэффективны для OLTP (Online Transaction Processing) нагрузок — частых точечных записей, обновлений или чтений одной строки (UPDATE table SET ... WHERE id = ?), так как для изменения одной "записи" приходится работать с файлами нескольких столбцов.

Ответ 18+ 🔞

А, слушай, вот эта тема про колоночные базы — это вообще отдельная песня, блядь. Представь себе, все эти твои PostgreSQL и MySQL — они как сука аккуратные архивариусы: берут всю строку — id, имя, значение — и кладут её целиком на полку. Полка за полкой.

А колоночные — это такие, блядь, хитрожопые бухгалтеры. Они берут и раскидывают всё по папкам! Все id — в одну стопку, все имена — в другую, все значения — в третью. В рот меня чих-пых!

И вот в чём, сука, магия:

Сжатие — овердохуищное. В папке "имена" лежат одни слова, в папке "даты" — одни цифры. Это ж сжимается, блядь, в разы лучше! Места экономится — просто пиздец.
Скорость на агрегациях — ебать. Тебе надо посчитать сумму по какому-нибудь столбцу? Ну, SELECT SUM(price) FROM sales? Так он же, сука, не будет читать всю таблицу! Он тупо откроет одну папочку "price", пробежится по ней глазами и всё посчитает. Остальные данные — id, названия товаров, цвет жопы упаковки — он даже в рот не берёт! Запрос летает, как угорелый.

Где это, блядь, нужно? Да везде, где не надо постоянно тыкать в одну строчку! Это чистая аналитика, ёпта:

OLAP — эти твои тяжёлые отчёты, где миллиарды строк группируются.
Big Data — всякие хранилища данных, из которых потом графики рисуют.
Временные ряды — показания датчиков, курсы валют, метрики с серверов. Тысячи значений в секунду пишутся, а потом по ним строят графики за год.

Но есть, блядь, и подвох! Они абсолютно ебейшие для UPDATE table SET name='Вася' WHERE id=123. Представь: чтобы изменить одну запись, этой мартышке надо лезть в кучу разных папок (id, name, email...), искать в каждой нужную строчку и править её. Это ж пиздец как долго! Для таких штук — только классические, строковые.

Ну и кто, сука, главные на этом балу?

ClickHouse — это просто зверь, блядь. Для аналитики — одна из самых быстрых. В го-сообществе её любят, как родную. Драйвер: github.com/ClickHouse/clickhouse-go/v2.
Apache Cassandra — эта, блядь, терпила. Распределённая, выдерживает дикие потоки записи. Тоже колоночная, но со своими прибамбасами. Драйвер: github.com/gocql/gocql.
InfluxDB & VictoriaMetrics — это, блядь, спецы по временным рядам. Заточены под метрики и мониторинг. VictoriaMetrics вообще на Go написана, красавица. Клиенты у них свои есть.

Короче, суть в чём: если тебе надо быстро читать и считать по гигабайтам данных — смотри в сторону колоночных. Если тебе надо часто писать и обновлять по одной записи — это не твой инструмент, забей. Всё просто, ёпта.

Ответ

Ключевые отличия и преимущества:

Основные сценарии использования:

Примеры популярных колоночных СУБД:

Недостатки:

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки