Какие свойства характеризуют хорошую хеш-функцию?

«Какие свойства характеризуют хорошую хеш-функцию?» — вопрос из категории Алгоритмы и структуры данных, который задают на 26% собеседований Data Scientist / ML Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Тип вопроса: Алгоритмы и структуры данных Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Хорошая хеш-функция должна обладать следующими ключевыми свойствами:

Детерминированность: Одинаковые входные данные всегда производят одинаковый хеш.
Равномерное распределение (минимизация коллизий): Выходные значения должны равномерно распределяться по всему диапазону возможных хешей, чтобы разные входы редко давали одинаковый хеш.
Эффективность вычисления: Функция должна быстро работать даже на больших объемах данных.
Устойчивость к коллизиям: Сложно найти два разных входа, дающих одинаковый хеш (это особенно критично для криптографических функций).
Чувствительность к входным данным (лавинный эффект): Малейшее изменение входа (например, один бит) должно приводить к кардинально другому хешу.

Пример плохой хеш-функции (много коллизий):

def bad_hash(s: str) -> int:
    # Хеш зависит только от длины строки
    return len(s) % 100

Пример хорошей (некриптографической) хеш-функции: Встроенные хеш-таблицы (словари) в языках программирования используют оптимизированные функции. Например, в Python используется алгоритм, который для строк комбинирует значения символов.

Криптографические хеш-функции (например, SHA-256) дополнительно обладают свойством необратимости (сложно восстановить вход по хешу) и устойчивостью к целенаправленным атакам.

Ответ

Похожие вопросы на собеседовании Data Scientist / ML Инженер

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки