Что такое bucket в структуре данных HashMap (Java)?

Question

Что такое bucket в структуре данных HashMap (Java)?

Тип вопроса: Java Core Вероятность: 10% Категория: Java Разработчик

Ответ

Bucket (корзина) — это элемент внутреннего массива в HashMap, который хранит узлы (entries) с ключами, имеющими одинаковый индекс после вычисления хэш-кода.

Как это работает:

При добавлении пары ключ-значение вычисляется hashCode() ключа.
На основе этого хэша определяется индекс в массиве Node<K,V>[] table. Ячейка массива по этому индексу и есть bucket.
Если в bucket уже есть элементы (произошла коллизия), новые элементы добавляются в цепочку.

Структура bucket в Java 8+:

При малом количестве элементов (<= 8) bucket представляет собой связный список (Node).
При большом количестве элементов (> 8) и при условии, что общий размер таблицы превышает 64, список преобразуется в сбалансированное дерево (TreeNode). Это предотвращает деградацию производительности до O(n) при атаках с использованием коллизий.

// Упрощенная структура узла для списка в bucket (Java 8+)
static class Node<K,V> implements Map.Entry<K,V> {
    final int hash; // Хэш-код ключа
    final K key;
    V value;
    Node<K,V> next; // Ссылка на следующий узел в цепочке коллизий
}

Производительность: При хорошем хэшировании и равномерном распределении элементов доступ к bucket происходит за O(1). Плохой хэш-код ведет к переполнению одного bucket и снижению производительности.

Ответ 18+ 🔞

А, слушай, про корзины в HashMap! Ну это ж классика, пиздец. Представь себе огромный склад, ящиков дохуя, и тебе надо быстро найти одну конкретную коробку с надписью "Ключ".

Вот этот ящик на складе — это и есть bucket (корзина). По сути, ячейка во внутреннем массиве этой мапы, куда она скидывает все твои пары "ключ-значение".

Как этот цирк работает, блядь:

Ты суёшь в мапу пару. Мапа первым делом спрашивает у ключа: "Ну-ка, сука, какой у тебя hashCode()?" Ключ, бля, мямлит какое-то число.
Мапа берет этот хэш, делает с ним какие-то свои, ёбта, манипуляции (чтобы биты перемешать) и получает индекс. Этот индекс — номер того самого ящика-корзины на нашем складе.
И вот она твоя запись уже летит прямиком в эту корзину. Если там пусто — красота. Если там уже что-то валяется (ой, коллизия, блядь, два ключа в одну корзину попали) — начинается веселье.

А вот тут, сука, самое интересное, что с корзиной происходит в Java 8+:

Пока элементов мало (8 или меньше) — корзина это просто связный список. Как вагоны в поезде, каждый тянется за предыдущим. Найти нужный — придётся пробежаться по всем, но раз 8 — не страшно.
А вот когда там уже 9 элементов, и весь склад-мапа разросся до приличных размеров (больше 64 ящиков) — тут мапа говорит: "Ну нахуй этот список, все за O(n) работать будем?". И бац — список волшебным образом превращается в сбалансированное дерево (TreeNode). Это чтобы даже если тебе не повезло и все ключи летят в одну корзину, поиск был за O(log n), а не за линейное время. Защита от долбоёбов, которые специально коллизии устраивают.

// Вот скелетик этого самого узла, из которого список в корзине собирается
static class Node<K,V> implements Map.Entry<K,V> {
    final int hash; // Тот самый, блядь, хэш-код, с которого всё началось
    final K key;    // Сам ключ, ради которого весь сыр-бор
    V value;        // Ну и значение, собсно
    Node<K,V> next; // А это — ссылка на следующую жертву в цепочке коллизий, если они есть
}

Итог по производительности, ёпта: Если у тебя ключи адекватные и хэш-функция не сосёт, то элементы распределятся по корзинам равномерно. Доступ к любой корзине — почти мгновенный, O(1), мечта. Но если твой hashCode() — говно полное и возвращает всем ключам одно и то же число, то все они полезут в одну корзину. Она раздуется, превратится в дерево, но поиск уже будет медленнее. Короче, пидарас шерстяной тот, кто в hashCode() и equals() закладывает кривые реализации.