Какой метод заполняет пропуски в данных

«Какой метод заполняет пропуски в данных» — вопрос из категории Очистка и качество данных, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Тип вопроса: Очистка и качество данных Вероятность: 33% Категория: Аналитик Данных

Ответ

Для заполнения пропусков в данных можно использовать несколько методов, в зависимости от типа данных и контекста:

Среднее/медиана/мода — для числовых данных.

    df['column'].fillna(df['column'].mean(), inplace=True)

Константа — если пропуски можно заменить фиксированным значением (например, 0 или "Unknown").

    df['column'].fillna('Unknown', inplace=True)

Forward/Backward Fill — для временных рядов.

    df['column'].fillna(method='ffill', inplace=True)  # предыдущее значение

Интерполяция — для числовых данных с зависимостью (например, линейная интерполяция).

    df['column'].interpolate(method='linear', inplace=True)

Предсказание моделями (KNN, Random Forest) — если пропуски значительные и есть зависимости между признаками.

Выбор метода зависит от природы данных и задачи. Например, для временных рядов лучше подходит ffill или интерполяция, а для категориальных данных — мода или константа.

Видео-ответы

▶

ТОП 10 ВОПРОСОВ АНАЛИТИКУ / СОБЕСЕДОВАНИЕ 2024 / SQL PYTHON BI Junior / Middle | Май 2024

Ответ

Видео-ответы

Похожие вопросы на собеседовании Аналитик Данных

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки