Какой метод заполняет пропуски в данных

«Какой метод заполняет пропуски в данных» — вопрос из категории Очистка и качество данных, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Для заполнения пропусков в данных можно использовать несколько методов, в зависимости от типа данных и контекста:

  1. Среднее/медиана/мода — для числовых данных.
    df['column'].fillna(df['column'].mean(), inplace=True)
  1. Константа — если пропуски можно заменить фиксированным значением (например, 0 или "Unknown").
    df['column'].fillna('Unknown', inplace=True)
  1. Forward/Backward Fill — для временных рядов.
    df['column'].fillna(method='ffill', inplace=True)  # предыдущее значение
  1. Интерполяция — для числовых данных с зависимостью (например, линейная интерполяция).
    df['column'].interpolate(method='linear', inplace=True)
  1. Предсказание моделями (KNN, Random Forest) — если пропуски значительные и есть зависимости между признаками.

Выбор метода зависит от природы данных и задачи. Например, для временных рядов лучше подходит ffill или интерполяция, а для категориальных данных — мода или константа.