Каковы плюсы и минусы колоночных (столбцовых) баз данных?

Question

Каковы плюсы и минусы колоночных (столбцовых) баз данных?

Тип вопроса: Базы данных Вероятность: 10% Категория: Golang Разработчик

Ответ

Колоночные (или столбцовые) СУБД хранят данные по колонкам, а не по строкам, как традиционные реляционные БД. Это делает их узкоспециализированным инструментом для аналитических нагрузок (OLAP).

Плюсы:

Высокая скорость аналитических запросов: При выполнении запроса (например, SELECT AVG(price) FROM sales) СУБД читает данные только из одной колонки price, игнорируя все остальные. Это на порядки быстрее, чем чтение целых строк.
Эффективное сжатие данных: Данные в одной колонке, как правило, однотипны (например, числа или даты), что позволяет применять к ним высокоэффективные алгоритмы сжатия. Это экономит дисковое пространство и ускоряет чтение.
Оптимизация для агрегаций: Идеально подходят для агрегирующих функций (SUM, AVG, COUNT, GROUP BY), так как все необходимые значения для расчета лежат на диске последовательно.

Минусы:

Медленные операции записи и обновления: Добавление или изменение одной "строки" данных требует обращения к файлам множества колонок, что является дорогой операцией. Поэтому они плохо подходят для транзакционных нагрузок (OLTP).
Неэффективность для точечных запросов: Запросы вида SELECT * FROM table WHERE id = 123 работают медленно, так как для сборки одной строки требуется прочитать данные из множества разных колоночных файлов.
Ограниченная поддержка транзакций: Многие колоночные СУБД либо не поддерживают ACID-транзакции, либо имеют существенные ограничения.

Когда использовать: Для аналитических систем, хранилищ данных (DWH), систем бизнес-аналитики (BI), мониторинга и обработки логов — везде, где преобладают сложные запросы к большим объемам данных с целью агрегации и анализа.

Популярные представители:

ClickHouse
Vertica
Apache Druid
Google BigQuery

Ответ 18+ 🔞

А, слушай, про эти ваши колоночные базы данных! Ну это ж просто пиздец какой-то, а не технология, если честно. Представь себе, все нормальные базы, как приличные люди, хранят данные рядами — строка за строкой, всё по полочкам. А эти выскочки взяли да всё похуй перевернули — стали хранить по колонкам! Это как книги в шкафу не корешками, а, блядь, страницами ставить: все первые страницы вместе, все вторые — отдельно. Звучит как бред, но для аналитики — просто овердохуища!

Чем они, сука, хороши:

Скорость запросов, как у ракеты. Тебе надо посчитать средний чек по продажам? Нормальная база будет, блядь, всю таблицу sales читать, аж потеть начнёт. А колоночная — она хитрая жопа — возьмёт и прочитает ТОЛЬКО колонку price. И всё! Остальные данные — user_id, product_name — она даже не потрогает. Итог: запрос летает в сотни раз быстрее. Просто ёперный театр!
Сжатие — просто волшебство. В одной колонке данные, как близнецы-братья — все числа, все даты. Их можно так упаковать, что места они займут в разы меньше. Экономия дисков — это, конечно, не главное, но приятно, когда у тебя петабайты данных.
Агрегации — их родная стихия. SUM, AVG, GROUP BY — для них это как родной дом. Все цифры, нужные для расчёта, лежат рядышком, плотненько. Система не бегает по всей таблице, а сосредоточенно работает с одним столбцом. Красота!

Но не всё так гладко, ёпта:

Запись — просто пиздец медленная. Хочешь добавить одну новую запись? Так тебе придётся, сука, открыть и дописать по чуть-чуть в КАЖДЫЙ файл-колонку! Это же адская работа. Для систем, где данные льются рекой (какие-нибудь, блядь, транзакции в интернет-магазине), они — чистая смерть. Терпения ноль ебать, пока всё запишется.
Точечные выборки — полный швах. Запрос типа «найди мне пользователя с id = 123 и покажи всё про него» — это их ахиллесова пята. Чтобы собрать одну полную строку, системе нужно пошарить по всем разным колоночным файлам и оттуда кусочки вытащить. Медленно и муторно.
С транзакциями — беда. Многие из этих СУБД либо на транзакции забивают хуй, либо поддерживают их через пень-колоду. Не жди от них надёжности как от старого доброго PostgreSQL.

Так когда же их, блядь, использовать?

Да когда тебе нужно не возиться с каждой отдельной записью, а анализировать овердохуища данных сразу. Системы бизнес-аналитики (BI), хранилища данных (DWH), разбор логов, всякие дашборды — вот их царство. Там запросы вроде «покажи сумму продаж по всем регионам за последние 5 лет с разбивкой по месяцам», а не «обнови email пользователя Вася Пупкин».

Известные ребята на этом поле:

ClickHouse — наш, сука, реактивный, всех порвёт.
Vertica — солидный такой, корпоративный.
Apache Druid — для временных рядов и событий вообще огонь.
Google BigQuery — там вообще всё в облаке, даже думать не надо.

Короче, инструмент узкоспециализированный, как скальпель. Для операционной — идеально, а хлеб нарезать — хуй с горы, проще топором.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки