Какие критерии остановки в градиентном спуске вы знаете?

Question

Какие критерии остановки в градиентном спуске вы знаете?

Тип вопроса: Классическое ML Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

В градиентном спуске я использую несколько критериев остановки, которые комбинирую в зависимости от задачи:

Основные критерии:

Достижение максимального числа итераций — самый простой гарантированный способ:

max_iterations = 1000
for i in range(max_iterations):
# optimization step
if i == max_iterations - 1:
    print("Достигнут лимит итераций")

Норма градиента ниже порога — когда оптимизация близка к минимуму:

import numpy as np
gradient_norm = np.linalg.norm(gradient)
if gradient_norm < 1e-6:
print(f"Градиент достаточно мал: {gradient_norm:.2e}")
break

Изменение функции потерь незначительно — когда улучшения минимальны:

loss_change = abs(prev_loss - current_loss)
if loss_change < 1e-8:
print(f"Изменение loss: {loss_change:.2e} < порога")
break

Ранняя остановка (Early Stopping) — для нейросетей отслеживаю валидационную ошибку:
```
best_val_loss = float('inf')
patience = 10
no_improve_count = 0
```

for epoch in range(epochs): train_model() val_loss = evaluate_validation()

if val_loss < best_val_loss:
    best_val_loss = val_loss
    no_improve_count = 0
    save_best_model()
else:
    no_improve_count += 1

if no_improve_count >= patience:
    print(f"Ранняя остановка на эпохе {epoch}")
    break



**На практике** я часто комбинирую эти подходы. Для выпуклых задач с гарантированной сходимостью (например, линейная регрессия) использую критерий 2 или 3. Для глубокого обучения — обязательно раннюю остановку с мониторингом валидационной кривой.

Ответ 18+ 🔞

А, ну вот, градиентный спуск, ёпта! Классика жанра, как бутерброд с колбасой. Ты сидишь, такой, думаешь: «Сейчас я эту нейронку обучу, будет мне хиросима и нигерсраки!» А на деле — сидишь и смотришь, как loss скачет, как мартышлюшка на банане. Так вот, слушай, как я это безобразие останавливаю, чтобы не ждать, пока комп сгорит.

Основные приёмчики, которые я юзаю:

Достиг максимума итераций — и всё, хватит. Самый тупой, но железобетонный способ. Типа, дал себе слово — сто тысяч шагов, и ни шагу больше.
```
max_iterations = 1000
for i in range(max_iterations):
# optimization step
if i == max_iterations - 1:
    print("Достигнут лимит итераций")
```
Просто берёшь и говоришь: «Всё, бля, терпения ноль ебать, я устал». Работает всегда, даже если алгоритм решил сойти с ума и плясать вокруг минимума.
Градиент стал меньше, чем твоё желание работать в понедельник. Вот это уже умный подход. Когда шаги становятся микроскопическими, значит, ты уже в ямке.
```
import numpy as np
gradient_norm = np.linalg.norm(gradient)
if gradient_norm < 1e-6:
print(f"Градиент достаточно мал: {gradient_norm:.2e}")
break
```
Смысл в чём? Если сила, толкающая тебя вниз, ослабла до состояния «хуй с горы», то дальше ползти — только время терять. Останавливайся и радуйся.
Функция потерь перестала меняться. Это когда ты смотришь на график, а он уже три эпохи как рисует прямую линию. Улучшения — ноль целых, хуй десятых.
```
loss_change = abs(prev_loss - current_loss)
if loss_change < 1e-8:
print(f"Изменение loss: {loss_change:.2e} < порога")
break
```
Тут всё просто: если loss не падает, значит, ты либо упёрся в дно, либо в стенку. В любом случае — пора закругляться, а то сам от себя охуеешь от бесполезного ожидания.
Ранняя остановка (Early Stopping) — вот это, бля, мастхэв для нейросетей. Тут уже подозрение ебать чувствую, что модель натренировалась и сейчас начнёт запоминать шум вместо знаний.
```
best_val_loss = float('inf')
patience = 10
no_improve_count = 0
```

for epoch in range(epochs): train_model() val_loss = evaluate_validation()

if val_loss < best_val_loss:
    best_val_loss = val_loss
    no_improve_count = 0
    save_best_model()
else:
    no_improve_count += 1

if no_improve_count >= patience:
    print(f"Ранняя остановка на эпохе {epoch}")
    break


Суть? Ты следишь не за тренировочной ошибкой (она может вечно падать, потому что модель просто заучивает данные), а за валидационной. Если она перестала улучшаться несколько раз подряд — всё, **накрылся медным тазом**, выключай обучение, а то будет переобучение, **пидарас шерстяной**.

**Если по-простому:** для простых, предсказуемых задач (типа линейной регрессии) хватает второго или третьего критерия — там сходимость гарантирована. А вот когда лезешь в **ёперный театр** глубокого обучения, то без ранней остановки — просто **распиздяй**. Иначе натренируешь **монстра**, который на новых данных работать откажется. Комбинируй, смотри по ситуации, и да пребудет с тобой низкий loss.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки