Какие проблемы возникают при массовой отправке асинхронных HTTP запросов в Python?

Question

Какие проблемы возникают при массовой отправке асинхронных HTTP запросов в Python?

Тип вопроса: Асинхронность Вероятность: 10% Категория: Python Разработчик

Ответ

При массовой отправке тысяч асинхронных HTTP запросов в Python можно столкнуться с рядом проблем, требующих внимательного подхода:

Ограничение на количество открытых соединений: Операционная система и целевой сервер могут иметь лимиты на число одновременных TCP-соединений. Превышение этих лимитов может привести к ошибкам Too many open files или таймаутам.
Перегрузка целевого сервера: Большое количество запросов за короткий промежуток времени может быть воспринято как DDoS-атака, что приведёт к временной или постоянной блокировке вашего IP-адреса.
Высокое потребление памяти: Каждая корутина и связанный с ней контекст потребляют память. Тысячи одновременно запущенных корутин могут привести к значительному расходу оперативной памяти.

Для безопасной и эффективной обработки большого числа запросов рекомендуется использовать семафоры для ограничения параллелизма.

Пример ограничения одновременных запросов с asyncio.Semaphore и aiohttp:

import asyncio
import aiohttp

# Список URL-адресов для запросов (для примера)
urls = [f"http://example.com/data/{i}" for i in range(1000)]

async def fetch(url: str, session: aiohttp.ClientSession, sem: asyncio.Semaphore) -> str:
    """
    Выполняет HTTP GET запрос, используя семафор для ограничения параллелизма.
    """
    async with sem:  # Ожидаем освобождения семафора
        try:
            async with session.get(url, timeout=10) as response: # Добавляем таймаут
                response.raise_for_status() # Вызывает исключение для статусов 4xx/5xx
                return await response.text()
        except aiohttp.ClientError as e:
            print(f"Ошибка при запросе {url}: {e}")
            return "" # Возвращаем пустую строку или обрабатываем ошибку иначе

async def main():
    # Ограничиваем до 100 одновременных запросов
    sem = asyncio.Semaphore(100)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(url, session, sem) for url in urls]
        results = await asyncio.gather(*tasks, return_exceptions=True) # Обрабатываем исключения
        # print(results) # Обработка результатов

if __name__ == "__main__":
    asyncio.run(main())

Дополнительные рекомендации:

Таймауты: Всегда устанавливайте таймауты для HTTP-запросов (aiohttp.ClientSession(timeout=...) или в session.get(timeout=...)), чтобы предотвратить зависание программы при недоступности сервера.
Экспоненциальный бэкофф: При получении ошибок (например, 429 Too Many Requests, 5xx) используйте стратегию экспоненциального бэкоффа для повторных запросов, чтобы не усугублять перегрузку сервера.
Пул соединений (aiohttp.TCPConnector): Используйте TCPConnector для управления пулом TCP-соединений, что позволяет переиспользовать уже установленные соединения и снижает накладные расходы на их создание.

Ответ 18+ 🔞

Да ты посмотри, какая хуйня может случиться, если ты возьмёшь и начнёшь слать тысячи запросов на сервак, как будто тебе нехуя делать! Сервер-то, он живой, блядь, не железный, хотя... железный, но суть-то одна!

Первая проблема — это как будто ты в узкую дверь пытаешься впихнуть овердохуища народу. Операционка и сервер кричат: «Хуя ты, мудила, столько соединений открыл!» И вылетает тебе в рожу ошибка Too many open files. Пиздец, а не разработка.

Вторая — это ты такой: «А давай-ка я навалю на сервер, как слон в посудной лавке!». А сервер думает: «О, блядь, DDoS-атака!» И банит твой IP нахуй. И сидишь ты потом, как дурак, и думаешь: «И че теперь?».

Третья — память. Каждая твоя корутина — это как маленький пиздёныш, который жрёт оперативку. А их у тебя тысячи! Они сожрут всю память, и твоя программа накроется медным тазом, блядь.

Чтобы не быть мудаком, нужно использовать семафоры. Это как очередь в столовую: только сто человек одновременно могут жрать, остальные ждут, пока место освободится.

Вот, смотри, как это делается по-человечески, с таймаутами и без ебли:

import asyncio
import aiohttp

# Список URL-адресов для запросов (для примера)
urls = [f"http://example.com/data/{i}" for i in range(1000)]

async def fetch(url: str, session: aiohttp.ClientSession, sem: asyncio.Semaphore) -> str:
    """
    Выполняет HTTP GET запрос, используя семафор для ограничения параллелизма.
    """
    async with sem:  # Ожидаем освобождения семафора
        try:
            async with session.get(url, timeout=10) as response: # Добавляем таймаут
                response.raise_for_status() # Вызывает исключение для статусов 4xx/5xx
                return await response.text()
        except aiohttp.ClientError as e:
            print(f"Ошибка при запросе {url}: {e}")
            return "" # Возвращаем пустую строку или обрабатываем ошибку иначе

async def main():
    # Ограничиваем до 100 одновременных запросов
    sem = asyncio.Semaphore(100)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(url, session, sem) for url in urls]
        results = await asyncio.gather(*tasks, return_exceptions=True) # Обрабатываем исключения
        # print(results) # Обработка результатов

if __name__ == "__main__":
    asyncio.run(main())

А ещё, чувак, не забудь про таймауты! А то твоя программа будет висеть вечность, если сервер сдох. И про экспоненциальный бэкофф — если сервер орёт «429 Too Many Requests», не лезь сразу, подожди чутка, дай ему отдышаться, ёпта! И пул соединений (aiohttp.TCPConnector) — это чтобы не открывать новое соединение каждый раз, а переиспользовать старое. Экономия, блядь, на каждом чихе!

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки