Какие слои данных есть в хранилище

«Какие слои данных есть в хранилище» — вопрос из категории Хранилища данных и ETL, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

В хранилище данных обычно выделяют 4 основных слоя:

  1. Staging (сырые данные)

    • Необработанные данные "как есть" из источников
    • Сохраняется история изменений
    • Пример: лог-файлы, API-ответы в JSON
  2. ODS (Operational Data Store)

    • Очищенные, но не агрегированные данные
    • Часто соответствует структуре источника
    CREATE TABLE ods.orders (
      order_id INT,
      customer_id INT,
      order_date TIMESTAMP,
      amount DECIMAL(10,2)
    );
  1. DWH (Data Warehouse)

    • Интегрированные данные из разных источников
    • Оптимизированная для анализа схема (звёзды/снежинки)
    • Содержит исторические срезы
  2. Data Marts

    • Тематические подмножества для конкретных отделов
    • Могут быть материализованными представлениями

Дополнительно могут быть слои для ML-моделей, кэшей и витрин.