Версия: 2.0.x

Data Lakehouse

DLA

Помимо эффективной аналитики локальных данных, Selena может работать как вычислительный движок для анализа данных, хранящихся в озёрах данных, таких как Apache Hudi, Apache Iceberg и Delta Lake. Одной из ключевых особенностей Selena является внешний каталог, который служит связующим звеном с внешним metastore. Эта функциональность предоставляет пользователям возможность бесшовно выполнять запросы к внешним источникам данных, устраняя необходимость в миграции данных. Таким образом, пользователи могут анализировать данные из различных систем, таких как HDFS и Amazon S3, в различных форматах файлов, таких как Parquet, ORC, CSV и др.

На приведённом рисунке показан сценарий аналитики озера данных, где Selena отвечает за вычисления и анализ данных, а озеро данных — за хранение, организацию и обслуживание данных. Озёра данных позволяют пользователям хранить данные в открытых форматах хранения и использовать гибкие схемы для создания отчётов на основе «единого источника истины» для различных сценариев использования BI, AI, ad-hoc и отчётности. Selena в полной мере использует преимущества своего векторизованного движка и CBO, значительно повышая производительность аналитики озёр данных.

Ключевые концепции

Открытые форматы данных: Поддержка различных типов данных, включая JSON, Parquet и Avro, облегчает хранение и обработку как структурированных, так и неструктурированных данных.
Управление метаданными: Реализует общий слой метаданных, часто использующий такие форматы как Iceberg table format, для эффективной организации и управления данными.
Управление и безопасность: Предоставляет надежные встроенные механизмы для безопасности данных, конфиденциальности и соответствия нормативным требованиям, обеспечивая целостность данных и их надежность.

Преимущества архитектуры Data Lakehouse

Гибкость и масштабируемость: Легко управляет различными типами данных и масштабируется в соответствии с потребностями организации.
Экономическая эффективность: Предлагает экономичную альтернативу для хранения и обработки данных по сравнению с традиционными методами.
Улучшенное управление данными: Повышает контроль, управление и целостность данных, обеспечивая надежную и безопасную обработку данных.
Готовность к AI и аналитике: Идеально подходит для сложных аналитических задач, включая машинное обучение и обработку данных на основе AI.

Подход Selena

Ключевые аспекты для рассмотрения:

Стандартизация интеграции с catalog или metadata-сервисами
Эластичная масштабируемость compute-узлов
Гибкие механизмы кеширования

Catalogs

Selena имеет два типа catalog: внутренние и внешние. Внутренний catalog содержит метаданные для данных, хранящихся в базах данных Selena. Внешние catalogs используются для работы с данными, хранящимися внешне, включая данные, управляемые Hive, Iceberg, Delta Lake и Hudi. Существует много других внешних систем, ссылки находятся в разделе "Дополнительная информация" внизу страницы.

Масштабирование compute-узлов (CN)

Разделение хранения и вычислений снижает сложность масштабирования. Поскольку compute-узлы Selena хранят только локальный cache, узлы могут быть добавлены или удалены в зависимости от нагрузки.

Data cache

Cache на compute-узлах опционален. Если ваши compute-узлы быстро создаются и удаляются в зависимости от быстро меняющихся паттернов нагрузки, или если ваши запросы часто касаются только самых последних данных, кеширование данных может не иметь смысла.

Дополнительная информация находится в документации по Catalog.

Ключевые концепции​

Преимущества архитектуры Data Lakehouse​

Подход Selena​

Catalogs​

Масштабирование compute-узлов (CN)​

Data cache​