Возможно ли в Python настоящее параллельное выполнение потоков для CPU-задач

Question

Возможно ли в Python настоящее параллельное выполнение потоков для CPU-задач

Тип вопроса: Асинхронность Вероятность: 10% Категория: Python Разработчик

Ответ

Нет, из-за механизма Global Interpreter Lock (GIL) в стандартной реализации CPython потоки не могут выполняться по-настоящему параллельно на нескольких ядрах процессора для задач, интенсивно использующих CPU (CPU-bound).

GIL — это мьютекс, который разрешает исполнение Python-байткода только одному потоку в один момент времени.

Разница в применении:

I/O-bound задачи (ожидание ответа от сети, чтение с диска): Потоки (threading) эффективны. Пока один поток ждет завершения операции ввода-вывода, GIL освобождается, и другой поток может выполняться.
CPU-bound задачи (математические вычисления, обработка данных): Потоки создают лишь конкурентность, а не параллелизм. Для настоящей параллельности на нескольких ядрах следует использовать модуль multiprocessing, который создает отдельные процессы, каждый со своим собственным GIL.

Пример с multiprocessing для CPU-bound задачи:

import multiprocessing
import time

def cpu_task(name):
    print(f"Процесс {name} начал вычисления.")
    # Имитация тяжелой вычислительной задачи
    [i*i for i in range(10**7)]
    print(f"Процесс {name} завершил вычисления.")

if __name__ == "__main__":
    p1 = multiprocessing.Process(target=cpu_task, args=("A",))
    p2 = multiprocessing.Process(target=cpu_task, args=("B",))

    start_time = time.time()
    p1.start()
    p2.start()

    p1.join()
    p2.join()
    end_time = time.time()

    print(f"Все процессы завершены за {end_time - start_time:.2f} секунд.")

Вывод: Для задач, ограниченных вводом-выводом, используйте threading. Для задач, требующих интенсивных вычислений на нескольких ядрах, — multiprocessing.

Ответ 18+ 🔞

А, слушай, вот эта вся история с потоками в питоне — это ж классический пиздец, блядь! Люди думают: "О, запущу-ка я десять потоков, всё полетит!" А потом сидят и чешут репу, потому что нихуя не летит, а даже медленнее становится, ёпта!

Вот в чём корень зла, сука: Global Interpreter Lock (GIL). Это такая манда с ушами, мьютекс, который разрешает в один момент времени байтики питоновские исполнять только одному потоку. Один, Карл! Остальные сидят и ждут, пока этот свой кусок не отработает и замок не отпустит. Поэтому на задачах, где процессор надо ебать до седьмого пота (типа вычислений всяких), потоки — это просто иллюзия, пиздопроебибна полная. Они не параллельно, а по очереди работают, создавая только видимость.

Так когда же тогда эти потоки вообще нужны, спросишь ты?

А вот когда, хитрая жопа:

I/O-bound задачи — это когда твоя программа не мозги напрягает, а ждёт. Ждёт ответа от сервера, ждёт, пока файл с диска прочитается, ждёт пользовательского ввода. Вот тут потоки (threading) — огонь! Пока один поток уснул в ожидании ответа от сети, GIL отпускается, и другой поток может своё дело делать. И так по кругу. Эффективность — овердохуища!
CPU-bound задачи — а вот тут уже пизда. Математика, переборы, обработка изображений — всё, что грузит процессор. Тут потоки тебе не помогут для ускорения. Тут надо брать тяжёлую артиллерию — multiprocessing. Этот модуль создаёт отдельные процессы, у каждого свой собственный интерпретатор, свой собственный GIL, и они уже по-настоящему могут на разных ядрах процессора пахать. Да, процессы — штука более тяжёлая, памяти жрут больше, но для вычислений — это единственный путь, блядь!

Смотри, как это выглядит на практике, для тех самых CPU-задач:

import multiprocessing
import time

def cpu_task(name):
    print(f"Процесс {name} начал вычисления.")
    # Имитация тяжелой вычислительной задачи
    [i*i for i in range(10**7)]
    print(f"Процесс {name} завершил вычисления.")

if __name__ == "__main__":
    p1 = multiprocessing.Process(target=cpu_task, args=("A",))
    p2 = multiprocessing.Process(target=cpu_task, args=("B",))

    start_time = time.time()
    p1.start()
    p2.start()

    p1.join()
    p2.join()
    end_time = time.time()

    print(f"Все процессы завершены за {end_time - start_time:.2f} секунд.")

Видишь? Создаются два отдельных процесса, 'A' и 'B'. Они могут ебашить каждый на своём ядре, и общее время работы будет почти в два раза меньше, чем если бы ты это в двух потоках сделал. Вот это и есть настоящий параллелизм, а не та хуйня, которую threading для вычислений предлагает.

Итог, коротко и ясно, чтобы в ротберунчик не попасть: Ждёшь чего-то (сеть, диск) — бери threading. Надо считать дохуя — бери multiprocessing. И не путай эти две большие разницы, а то будешь потом сидеть и думать, почему у тебя восьмиядерный процессор загружен на 12%, а программа ползёт, как черепаха в сиропе.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки