Версия: 2.0.x

Data Lakehouse

DLA

Помимо эффективной аналитики локальных данных, Selena может работать как вычислительный движок для анализа данных, хранящихся в озёрах данных, таких как Apache Hudi, Apache Iceberg и Delta Lake. Одной из ключевых особенностей Selena является внешний каталог, который служит связующим звеном с внешним metastore. Эта функциональность предоставляет пользователям возможность бесшовно выполнять запросы к внешним источникам данных, устраняя необходимость в миграции данных. Таким образом, пользователи могут анализировать данные из различных систем, таких как HDFS и Amazon S3, в различных форматах файлов, таких как Parquet, ORC, CSV и др.

На приведённом рисунке показан сценарий аналитики озера данных, где Selena отвечает за вычисления и анализ данных, а озеро данных — за хранение, организацию и обслуживание данных. Озёра данных позволяют пользователям хранить данные в открытых форматах хранения и использовать гибкие схемы для создания отчётов на основе «единого источника истины» для различных сценариев использования BI, AI, ad-hoc и отчётности. Selena в полной мере использует преимущества своего векторизованного движка и CBO, значительно повышая производительность аналитики озёр данных.

Ключевые идеи

Открытые форматы данных: Поддерживает различные типы данных, включая JSON, Parquet и Avro, облегчая хранение и обработку как структурированных, так и неструктурированных данных.
Управление метаданными: Реализует общий слой метаданных, часто используя форматы, такие как табличный формат Iceberg, для эффективной организации и управления данными.
Разнообразные механизмы запросов: Включает несколько движков, таких как улучшенные версии Presto и Spark, для обслуживания различных сценариев аналитики и ИИ.
Управление и безопасность: Содержит надёжные встроенные механизмы для безопасности данных, конфиденциальности и соответствия требованиям, обеспечивая целостность и достоверность данных.

Преимущества архитектуры Data Lakehouse

Гибкость и масштабируемость: Беспрепятственно управляет разнообразными типами данных и масштабируется в соответствии с потребностями организации.
Экономическая эффективность: Предлагает экономичную альтернативу для хранения и обработки данных по сравнению с традиционными методами.
Улучшенное управление данными: Улучшает контроль, управление и целостность данных, обеспечивая надёжную и безопасную обработку данных.
Готовность к ИИ и аналитике: Идеально подходит для сложных аналитических задач, включая машинное обучение и обработку данных на основе ИИ.

Подход Selena

Ключевые моменты для рассмотрения:

Стандартизация интеграции с catalog или сервисами метаданных
Эластичная масштабируемость вычислительных узлов
Гибкие механизмы кэширования

Catalog

Selena имеет два типа catalog: внутренние и внешние. Внутренний catalog содержит метаданные для данных, хранящихся в базах данных Selena. Внешние catalog используются для работы с данными, хранящимися внешне, включая данные, управляемые Hive, Iceberg, Delta Lake и Hudi. Существует множество других внешних систем, ссылки находятся в разделе «Дополнительная информация» внизу страницы.

Масштабирование вычислительных узлов (CN)

Разделение хранения и вычислений снижает сложность масштабирования. Поскольку вычислительные узлы Selena хранят только локальный кэш, узлы могут добавляться или удаляться в зависимости от нагрузки.

Data Cache

Кэш на вычислительных узлах является опциональным. Если ваши вычислительные узлы быстро запускаются и останавливаются на основе быстро меняющихся паттернов нагрузки, или ваши запросы часто касаются только самых последних данных, может не иметь смысла кэшировать данные.

🗃️ Каталог

14 элементов

🗃️ Кэш данных

4 элемента

📄️ Внешняя таблица

Функция внешних таблиц больше не рекомендуется, за исключением определенных редких случаев использования, и может быть объявлена устаревшей в будущих выпусках. Для управления и запроса данных из внешних источников данных в общих сценариях рекомендуется использовать External Catalog.

📄️ Файловая внешняя таблица

Файловая внешняя таблица — это особый тип внешней таблицы. Она позволяет напрямую выполнять запросы к файлам данных Parquet и ORC во внешних системах хранения без загрузки данных в Selena. Кроме того, файловые внешние таблицы не зависят от metastore. В текущей версии Selena поддерживает следующие внешние системы хранения: HDFS, Amazon S3 и другие S3-совместимые системы хранения.

📄️ FAQ по Data Lake

Эта тема описывает некоторые часто задаваемые вопросы (FAQ) о Data Lake и предоставляет решения этих проблем. Некоторые метрики, упомянутые в этой теме, могут быть получены только из профилей SQL-запросов. Чтобы получить профили SQL-запросов, необходимо указать set enable_profile=true.

📄️ Поддержка функций

Начиная с версии v1.5.2, Selena поддерживает управление внешними источниками данных и анализ данных в Data Lake через внешние catalog.

Ключевые идеи​

Преимущества архитектуры Data Lakehouse​

Подход Selena​

Catalog​

Масштабирование вычислительных узлов (CN)​

Data Cache​