Какие типы данных вы использовали для поля идентификатора (ID) в базах данных?

Question

Какие типы данных вы использовали для поля идентификатора (ID) в базах данных?

Тип вопроса: Базы данных Вероятность: 24% Категория: PHP Разработчик

Ответ

Выбор типа данных для первичного ключа зависит от требований проекта, масштабируемости и типа базы данных. Вот основные варианты, с которыми я работал:

Целочисленные типы (INT, BIGINT) - AUTO_INCREMENT / IDENTITY:
- Самый распространенный выбор для реляционных БД (SQL Server, PostgreSQL, MySQL).
- Преимущества: Компактный, быстрый для индексации и соединений (JOIN), интуитивно понятная сортировка.
- Недостатки: Уязвимость к "угадыванию" ID, сложность генерации уникальных ID в распределенных системах без центральной БД.
```
-- SQL Server / PostgreSQL
CREATE TABLE Users (
Id INT PRIMARY KEY IDENTITY(1,1), -- или SERIAL в PostgreSQL
Email NVARCHAR(255) NOT NULL
);
```
UUID/GUID (UNIQUEIDENTIFIER или CHAR/VARCHAR):
- Используется, когда нужна глобальная уникальность или предварительная генерация ID вне БД (например, в микросервисной архитектуре).
- Преимущества: Уникальность гарантирована across всех баз и серверов. Безопаснее (сложнее угадать).
- Недостатки: Занимает больше места (16 байт vs 8 у BIGINT), может негативно влиять на производительность индексов из-за случайности, что приводит к фрагментации страниц.
```
// Генерация в C# перед вставкой
var newId = Guid.NewGuid(); // Например, 550e8400-e29b-41d4-a716-446655440000
```
ULID (Universally Unique Lexicographically Sortable Identifier):
- Современная альтернатива UUID. Представляет собой строку в кодировке Crockford's Base32.
- Преимущества: Сохраняет уникальность UUID, но лексикографически сортируем (так как первые 48 бит — это timestamp), что полезно для кластеризованных индексов. Читаем для человека.
- Недостатки: Менее распространенная нативная поддержка в БД, требует хранения как строки.
Составные (естественные) ключи:
- Иногда в качестве первичного ключа используется комбинация полей (например, (UserId, ProductId) для корзины). На практике часто добавляют суррогатный INT ID для удобства и производительности, а естественный ключ делают уникальным ограничением.

Мой практический выбор:

Для монолитных или начинающих проектов с центральной БД — BIGINT IDENTITY. Это эталон производительности.
Для распределенных систем (микросервисы) — UUID версии 4 или ULID. Если важна сортировка по времени создания — ULID предпочтительнее.
В NoSQL (например, Cosmos DB) часто используется строковый id, куда помещается сгенерированный GUID.

Ответ 18+ 🔞

А, ну это же классика, про которую можно говорить часами, пока кофе не остынет. Сидишь такой, проектик пишешь, и тут — бац! — вопрос: а какой, собственно, хуй с горы в качестве первичного ключа воткнуть? И ведь от этого выбора потом вся твоя жизнь зависит, я не шучу.

Смотри, есть несколько проверенных временем вариантов, и у каждого свои грабли.

Старый добрый INT/BIGINT с автоинкрементом. Это как классические семейные трусы — всем знакомо, удобно, и в 90% случаев работает на ура. База сама генерирует циферки: 1, 2, 3... Красиво, быстро для поиска и связей, места мало жрёт. Идеально для обычного проекта, который живёт в одной базе и не претендует на мировое господство. Но есть нюанс, ёпта. Если у тебя система распределённая, с кучей сервисов, которые все пытаются что-то создать, то начинается пиздец. Кто будет выдавать эти уникальные номера? Центральная база? А если она легла? Вот тут и начинается волнение ебать.
```
CREATE TABLE Users (
    Id INT PRIMARY KEY IDENTITY(1,1), -- Вжух, и номер готов!
    Email NVARCHAR(255) NOT NULL
);
```
UUID/GUID — рандомная строка из 36 символов. Вот это уже оружие для взрослых дядек в микросервисной архитектуре. Его главный козырь — уникальность гарантирована в масштабах всей вселенной. Сгенерировал на одном сервисе, отправил на другой, и можешь не париться, что он совпадёт с чьим-то ещё. Безопаснее, угадать нереально. Но и тут не без ложки дёгтя. Места он занимает овердохуища, индексы из-за его абсолютной рандомности начинают страдать и фрагментироваться, как сумасшедшие. Производительность на больших объёмах может просесть конкретно.
```
var newId = Guid.NewGuid(); // Слушай, а вдруг совпадёт? Да хуй там!
```
ULID — модный, молодёжный наследник UUID. Представь, что UUID и BIGINT родили ребёнка. Это ULID. Он такой же уникальный, но при этом его можно нормально сортировать, потому что в начале зашита временная метка. Для кластерных индексов — просто песня. И выглядит поприятнее, не такая каша из символов. Но поддержка в базах пока не везде нативная, часто приходится хранить как строку и колдовать самому. Так что, если не готов к небольшим танцам с бубном, лучше присмотреться к другим вариантам.
Составные ключи. А вот это уже для максималистов. Решил, что пара полей (UserId + ProductId) — это и есть идеальный ключ для корзины. В теории звучит логично. На практике же часто оказывается, что проще добавить тот же BIGINT ID для связей, а эту уникальную пару оставить просто как ограничение. И голова болеть меньше будет, и производительность не пострадает.

А теперь, бля, суровая правда жизни из моего опыта:

Делаешь обычный проект или монолит? Бери BIGINT IDENTITY и не мучайся. Это эталон, проверенный годами и триллионами записей. Доверия к нему — ебать.
Пишешь распределённую систему, где сервисы плодят данные кто во что горазд? Тут уже без вариантов — UUID или ULID. Если важно сразу видеть, что и когда создалось — бери ULID, не прогадаешь.
Работаешь с NoSQL, типа Cosmos DB? Там обычно id — это просто строка. Суй туда GUID и спи спокойно. Они на этом собаку съели.

Главное — понять, на каком масштабе ты играешь и где будет больнее всего, когда система вырастет. А там уже решай, что тебе ближе: проверенная классика или современные подходы с подводными камнями.

Видео-ответы

▶

Публичное собеседование PHP-разработчика на Неделе победителей рейтинга Хабр Карьеры Junior / Middle | Февраль 2024

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки