Что такое паттерн 'локальная очередь' в Go и для чего он используется?

Ответ

Паттерн «локальная очередь» (local queue) — это техника оптимизации производительности в конкурентных программах, направленная на снижение борьбы за общие ресурсы (contention).

Идея заключается в том, что у каждого воркера (горутины) есть своя собственная, локальная очередь задач, доступ к которой не требует синхронизации. Воркер в первую очередь работает с ней.

Как это работает:

Существует глобальная (общая) очередь задач (например, буферизованный канал), доступ к которой синхронизирован.
Каждый воркер имеет свою локальную очередь (например, слайс []T).
Воркер сначала пытается обработать все задачи из своей локальной очереди.
Если локальная очередь пуста, воркер обращается к глобальной очереди и забирает оттуда сразу пачку (batch) задач, помещая их в свою локальную очередь. Это минимизирует количество обращений к общему ресурсу.

Этот подход тесно связан с паттерном work-stealing, где бездействующий воркер может «украсть» часть работы из очереди другого воркера. Планировщик Go сам использует похожий механизм (модель G-M-P), где у каждого процессора P есть своя локальная очередь горутин (LRQ), и есть глобальная очередь (GRQ).

Примерная реализация:

func worker(globalTasks <-chan int, workerID int) {
    // Локальная очередь для этого воркера
    localQueue := make([]int, 0, 16)

    for {
        var task int

        // 1. Сначала проверяем локальную очередь
        if len(localQueue) > 0 {
            task = localQueue[0]
            localQueue = localQueue[1:]
        } else {
            // 2. Если локальная очередь пуста, берем задачу из глобальной
            task, ok := <-globalTasks
            if !ok {
                return // Канал закрыт, выходим
            }
        }

        process(task, workerID)
    }
}

Примечание: В этом упрощенном примере воркер берет по одной задаче. В реальной реализации он бы забирал сразу несколько для большей эффективности.

Преимущества:

Снижение contention: Воркеры реже обращаются к общему каналу, уменьшая блокировки.
Улучшение локальности кэша: Данные, с которыми работает воркер, с большей вероятностью находятся в кэше его процессора.
Повышение пропускной способности: Система обрабатывает больше задач в единицу времени за счет уменьшения накладных расходов на синхронизацию.