Что такое хеш-таблица (hash table)?

Question

Что такое хеш-таблица (hash table)?

Тип вопроса: Алгоритмы и структуры данных Вероятность: 10% Категория: IOS Разработчик

Ответ

Хеш-таблица — это структура данных, реализующая интерфейс ассоциативного массива (словаря). Она хранит пары ключ-значение и обеспечивает в среднем O(1) время для операций вставки, удаления и поиска по ключу.

Принцип работы:

Хеш-функция вычисляет целочисленный хеш (индекс) для ключа.
Этот хеш используется для определения корзины (bucket) в основном массиве, где будет храниться значение.

Проблема коллизий: Разные ключи могут давать одинаковый хеш. Существует два основных метода разрешения коллизий:

Метод цепочек (Separate Chaining): Каждая корзина содержит связный список (или другую структуру) всех пар, попавших в нее. Dictionary в Swift использует этот метод.
Открытая адресация (Open Addressing): При коллизии алгоритм ищет следующую свободную корзину по определенному алгоритму (линейное/квадратичное пробирование).

Пример и внутреннее устройство Swift Dictionary:

var scores: [String: Int] = ["Alice": 10, "Bob": 20]
// Под капотом:
// 1. Хеш-функция вычисляет хеш для "Alice".
// 2. Индекс корзины = hash % capacity массива.
// 3. Значение 10 сохраняется в этой корзине (в связном списке, если есть коллизии).

scores["Alice"] = 15 // O(1) в среднем случае

Критически важные аспекты:

Качество хеш-функции: Должна равномерно распределять ключи по корзинам.
Коэффициент загрузки (load factor): Отношение количества элементов к количеству корзин. При превышении порога выполняется ресейзинг (rehashing) — увеличение массива и пересчет хешей для всех элементов, что стоит O(n).
В худшем случае (все ключи попали в одну корзину) производительность деградирует до O(n).

Ответ 18+ 🔞

Давай разжуём эту тему про хеш-таблицы, а то некоторые думают, что это какая-то магия, а не простая, гениальная и местами ёбнутая идея.

Представь себе шкаф с кучей выдвижных ящиков. Это наш массив, основа всей конструкции. Тебе нужно положить в шкаф пару «ключ-значение»: например, «Имя: Вася» и «Очки: 9000». Сука, а как быстро найти потом Васю? Перебирать все ящики? На это уйдёт O(n) времени, и это пиздец как медленно.

Вот тут на сцену выходит хеш-функция — этакая волшебная, но очень прагматичная сучка. Её работа — взять твой ключ (строку «Вася») и выдать на-гора число — хеш. Не просто число, а такое, чтобы для разных ключей числа по возможности были разными. Идеально — уникальными, но в реальности, ёпта, такое бывает редко.

Дальше простая арифметика: берем этот хеш, делим с остатком на количество ящиков (capacity) и — вуаля! — получаем номер ящика. Туда-то мы и кладём нашу пару «Вася: 9000». Когда нужно будет найти Васю, мы не лезем во все ящики, а снова спрашиваем у хеш-функции: «Слышь, а где Вася?». Она нам выдаёт тот же номер ящика, мы туда смотрим — и охуенно! — Вася на месте. В среднем это O(1), то есть практически мгновенно. Красота!

А вот и подвох, блядь — коллизии. Что если хеш-функция, эта хитрая жопа, для ключей «Вася» и «Маша» выдала один и тот же хеш? Они претендуют на один и тот же ящик! Пиздец, драка. Как решать?

Есть два главных подхода, как мириться в одной корзине:

Метод цепочек (Separate Chaining). В ящик ставим не одну пару, а, например, связный список. Пришёл Вася — положили. Пришла Маша с тем же хешом — её запись просто добавляем в тот же список в этом ящике. При поиске сначала находим ящик за O(1), а потом в его списке ищем нужный клюз. Dictionary в Swift работает именно так, эти умники.
Открытая адресация (Open Addressing). Это как игра в музыкальные стулья. Ящик занят Васей? Окей, Маша идёт искать следующий свободный ящик по какому-то правилу (например, проверяет ящик номер+1). Поиск потом будет идти по той же схеме: зашли в расчётный ящик, а там не Маша, а Вася — пошли проверять следующий, пока не найдём или не упрёмся в пустой.

Теперь про то, как это всё живёт и дышит в Swift:

var gameScores: [String: Int] = ["Alice": 10, "Bob": 20]
// Что внутри происходит, блядь:
// 1. Хеш-функция от строки "Alice" выдаёт какое-то большое число.
// 2. `index = hashValue % capacity_массива_корзин`. Получаем номер корзины.
// 3. В эту корзину (в её внутренний список) ложится запись ("Alice", 10).

gameScores["Alice"] = 15 // В среднем — быстрая операция O(1)

На чём вся эта хуйня держится и где может накрыться медным тазом:

Хеш-функция — царица полей. Если она кривая и все ключи кладёт в три ящика, то вместо шкафа получается три переполненных корзины, а поиск в них вырождается в тот самый ужасный O(n). Качество распределения — всё.
Коэффициент загрузки (Load Factor). Это отношение «сколько пар уже есть» к «сколько всего ящиков». Когда ящики заполняются на 70-80%, наступает момент ресейзинга (rehashing). Система говорит: «Всё, пиздец, тесно!». Она создаёт новый, больший массив ящиков, берет ВСЕ существующие пары, заново вычисляет для них хеши и новые позиции, и перекладывает. Операция стоит O(n), но делается нечасто, поэтому амортизированная стоимость остаётся O(1).
Худший случай. Если хеш-функция идиотская или злоумышленник специально подобрал ключи, чтобы все они летели в одну корзину, производительность падает ниже плинтуса. Вся таблица превращается в один длиннющий-предлинный список. O(n), пидарас шерстяной, и никакой магии.

Вот и вся недолгая, блядь, история. Гениально просто, но дохуя тонкостей, на которых можно обжечься.