Hudi catalog
Hudi catalog — это тип external catalog, который позволяет запрашивать данные из Apache Hudi без их загрузки.
Также вы можете напрямую преобразовывать и загружать данные из Hudi, используя INSERT INTO на основе Hudi catalogs. Selena поддерживает Hudi catalogs начиная с верси и 1.5.0.
Чтобы обеспечить успешное выполнение SQL-запросов в вашем Hudi-кластере, ваш кластер Selena должен иметь доступ к системе хранения и metastore вашего Hudi-кластера. Selena поддерживает следующие системы хранения и metastore:
-
Распределенная файловая система (HDFS) или объектное хранилище, такое как AWS S3, Microsoft Azure Storage, Google GCS или другая S3-совместимая система хранения (например, MinIO)
-
Metastore, такой как Hive metastore или AWS Glue
ПРИМЕЧАНИЕ
Если вы выберете AWS S3 в качестве хранилища, вы можете использовать HMS или AWS Glue в качестве metastore. Если вы выберете любую другую систему хранения, вы можете использовать только HMS в качестве metastore.
Примечания по использованию
- Формат файлов Hudi, который поддерживает Selena, — это Parquet. Файлы Parquet поддерживают следующие форматы сжатия: SNAPPY, LZ4, ZSTD, GZIP и NO_COMPRESSION.
- Selena обеспечивает полную поддержку таблиц Copy On Write (COW) и Merge On Read (MOR) из Hudi.
Подготовка к интеграции
Перед созданием Hudi catalog убедитесь, что ваш кластер Selena может интегрироваться с системой хранения и metastore вашего Hudi-кластера.
AWS IAM
Если ваш Hudi-кластер использует AWS S3 в качестве хранилища или AWS Glue в качестве metastore, выберите подходящий метод аутентификации и выполните необходимые приготовления, чтобы ваш кластер Selena мог получить доступ к соответствующим облачным ресурсам AWS.
Рекомендуются следующие методы аутентификации:
- Instance profile
- Assumed role
- IAM user
Из вышеупомянутых трех методов аутентификации instance profile используется наиболее широко.
Для получения дополнительной информации см. Подготовка к аутентификации в AWS IAM.