Существуют ли методы детекции объектов без использования anchor boxes?

«Существуют ли методы детекции объектов без использования anchor boxes?» — вопрос из категории Компьютерное зрение, который задают на 26% собеседований Data Scientist / ML Инженер. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Да, существуют современные и эффективные архитектуры для детекции объектов, которые полностью отказываются от anchor boxes. Anchor-based методы (как в Faster R-CNN или YOLOv3-v5) требуют ручного подбора гиперпараметров (размеров, соотношений сторон якорей), что усложняет конвейер.

Ключевые anchor-free подходы:

  1. Методы, основанные на ключевых точках (Keypoint-based):

    • CenterNet (Objects as Points): Модель предсказывает тепловую карту центров объектов, их ширину и высоту, а также смещение для более точной локализации. Это простой и эффективный подход.
      # Псевдокод логики вывода CenterNet
      heatmap = model(image)['center_heatmap']  # Карта вероятностей центров объектов
      wh = model(image)['wh']                   # Предсказание ширины и высоты
      # Поиск пиков в heatmap и декодирование в bounding boxes [x1, y1, x2, y2]
      boxes = decode_predictions(heatmap, wh)
  2. Методы, основанные на прямом предсказании (Dense Prediction):

    • YOLOv1: Исторически первый anchor-free метод YOLO предсказывал bounding boxes напрямую для каждой ячейки грида.
    • FCOS (Fully Convolutional One-Stage): Каждый пиксель классифицируется и регрессирует расстояния до границ объекта (left, top, right, bottom).
  3. Трансформеры (Transformer-based):

    • DETR (DEtection TRansformer): Использует архитектуру Transformer (энкодер-декодер) для трактовки детекции как задачи прямого предсказания множества объектов. Модель выдает фиксированный набор предсказаний, которые сопоставляются с ground truth с помощью Hungarian algorithm.

Преимущества anchor-free методов:

  • Упрощение конвейера (не нужно настраивать anchor boxes).
  • Часто более высокая скорость обучения и вывода.
  • Лучшая работа с объектами нестандартных размеров.

Недостатки:

  • Некоторые методы (особенно ранние) могут уступать в точности на мелких объектах по сравнению с тщательно настроенными anchor-based подходами, хотя современные архитектуры этот разрыв закрыли.