Ответ
В хранилище данных обычно выделяют 4 основных слоя:
-
Staging (сырые данные)
- Необработанные данные "как есть" из источников
- Сохраняется история изменений
- Пример: лог-файлы, API-ответы в JSON
-
ODS (Operational Data Store)
- Очищенные, но не агрегированные данные
- Часто соответствует структуре источника
CREATE TABLE ods.orders (
order_id INT,
customer_id INT,
order_date TIMESTAMP,
amount DECIMAL(10,2)
);
-
DWH (Data Warehouse)
- Интегрированные данные из разных источников
- Оптимизированная для анализа схема (звёзды/снежинки)
- Содержит исторические срезы
-
Data Marts
- Тематические подмножества для конкретных отделов
- Могут быть материализованными представлениями
Дополнительно могут быть слои для ML-моделей, кэшей и витрин.