Что такое time series кросс-валидация?

Question

Что такое time series кросс-валидация?

Тип вопроса: Временные ряды Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Time series cross-validation (CV) — это метод оценки моделей для временных рядов, который сохраняет их временной порядок. В отличие от стандартной k-fold CV, где данные перемешиваются, здесь обучающая и тестовая выборки разделяются последовательно, что предотвращает утечку данных из будущего (data leakage).

Основные подходы:

Rolling Window (скользящее окно): Фиксированный размер обучающего окна, которое перемещается по временной оси.
Expanding Window (расширяющееся окно): Обучающее окно начинается с фиксированного размера и постепенно увеличивается, включая все предыдущие данные.

Пример с TimeSeriesSplit из scikit-learn:

from sklearn.model_selection import TimeSeriesSplit
import numpy as np

# Пример данных временного ряда
X = np.array([[i] for i in range(10)])
y = np.array([i for i in range(10)])

tscv = TimeSeriesSplit(n_splits=3)
for train_index, test_index in tscv.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print(f"Train: {train_index}, Test: {test_index}")

Ключевые особенности:

Имитирует реальный процесс прогнозирования, где модель обучается на прошлых данных для предсказания будущих.
Критически важен для корректной оценки моделей прогнозирования (forecasting).
Позволяет оценить, как качество модели меняется со временем.

Ответ 18+ 🔞

Давай разберёмся с этой штукой, которая временные ряды на части рвёт. Time series cross-validation, блядь, звучит как заклинание, но на деле всё просто, если не тупить.

Представь, ты пытаешься предсказать, сколько пива продадут завтра в твоём ларьке. Ты же не будешь смотреть на данные послезавтра, чтобы угадать завтрашние продажи? Это было бы пиздец как нечестно, да? Вот именно от этой ебли — утечки данных из будущего — этот метод и спасает. Он сохраняет порядок времени, чтобы ты не подсмотрел ответы.

Как это работает, на пальцах:

Rolling Window (скользящее окно): Это как если бы у тебя была записная книжка на 100 страниц. Сначала ты учишься предсказывать по первым 70 страницам, а проверяешь себя на 71-80. Потом ты сдвигаешься: учишься на страницах 11-80, а проверяешь на 81-90. Окно обучения фиксированное, просто едет вперёд. Ядрёна вошь, логично же.
Expanding Window (расширяющееся окна): Тут ещё проще. Начинаешь учиться на тех же 70 страницах, проверяешь на 71-80. А потом не сдвигаешь окно, а расширяешь его: учишься уже на ВСЕХ предыдущих данных, то есть на страницах 1-80, и проверяешь на 81-90. Обучающая выборка растёт как на дрожжах.

Вот смотри, как это в коде выглядит, тут всё чётко:

from sklearn.model_selection import TimeSeriesSplit
import numpy as np

# Допустим, это твои продажи пива по дням
X = np.array([[i] for i in range(10)])
y = np.array([i for i in range(10)])

tscv = TimeSeriesSplit(n_splits=3)
for train_index, test_index in tscv.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print(f"Train: {train_index}, Test: {test_index}")

А теперь главное, что надо вынести, чтобы не облажаться:

Этот метод имитирует реальную жизнь. Ты всегда учишься на прошлом, чтобы предсказать будущее. Не наоборот. Если сделаешь наоборот — это пиздопроёбина полная, и твоя модель будет хуй с горы, просто угадывая.
Он критически важен для любых прогнозов. Хочешь предсказать курс биткоина, цену на гречку или пробки на МКАДе — используй это. Иначе доверия к твоей модели — ноль ебать.
Он показывает, не деградирует ли твоя модель со временем. Может, она хорошо работала в 2020-м, а в 2023-м уже полная манда с ушами. Такой кросс-валидацией ты это сразу увидишь.

Короче, запомни: для временных рядов обычный KFold — это путь в никуда. Бери TimeSeriesSplit и спи спокойно. А то получится хитрая жопа, где модель вроде бы на отлично учится, а на новых данных нихуя не предсказывает.

Видео-ответы

▶

Junior Data Scientist | Собеседование | karpov.courses Junior | Март 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки