Версия: 2.0.x

Iceberg catalog

подсказка

Для быстрого старта с Selena см. раздел Быстрый старт.

Iceberg catalog — это тип внешнего каталога, который поддерживается Selena начиная с версии v1.5.2. С Iceberg catalogs вы можете:

Напрямую запрашивать данные, хранящиеся в Iceberg, без необходимости вручную создавать таблицы.
Использовать INSERT INTO или асинхронные материализованные представления (которые поддерживаются с v1.5.2) для обработки данных, хранящихся в Iceberg, и загрузки данных в Selena.
Выполнять операции в Selena для создания или удаления баз данных и таблиц Iceberg, или записывать данные из таблиц Selena в таблицы Iceberg формата Parquet с помощью INSERT INTO (эта функция поддерживается с v1.5.2).

Чтобы обеспечить успешное выполнение SQL-запросов в вашем Iceberg cluster, ваш Selena cluster должен иметь доступ к системе хранения и metastore вашего Iceberg cluster. Selena поддерживает следующие системы хранения и metastore:

Распределенная файловая система (HDFS) или объектное хранилище, такое как AWS S3, Microsoft Azure Storage, Google GCS или другая S3-совместимая система хранения (например, MinIO)
Metastore, такой как Hive metastore, AWS Glue или Tabular

примечание

Если вы выбираете AWS S3 в качестве хранилища, вы можете использовать HMS или AWS Glue в качестве metastore. Если вы выбираете любую другую систему хранения, вы можете использовать только HMS в качестве metastore.
Если вы выбираете Tabular в качестве metastore, вам нужно использовать Iceberg REST catalog.

Примечания по использованию

Обратите внимание на следующие моменты при использовании Selena для запроса данных из Iceberg:

Формат файла	Формат сжатия	Версия таблицы Iceberg
Parquet	SNAPPY, LZ4, ZSTD, GZIP и NO_COMPRESSION	v1 tables: поддерживается. v2 tables: поддерживается с Selena v1.5.2, при этом запросы к этим v2 tables поддерживают position deletes. В более поздних версиях запросы к v2 tables также поддерживают equality deletes.
ORC	ZLIB, SNAPPY, LZO, LZ4, ZSTD и NO_COMPRESSION	v1 tables: поддерживается. v2 tables: поддерживается с Selena v1.5.2, при этом запросы к этим v2 tables поддерживают position deletes. В более поздних версиях запросы к v2 tables также поддерживают equality deletes.

Подготовка к интеграции

Перед созданием Iceberg catalog убедитесь, что ваш Selena cluster может интегрироваться с системой хранения и metastore вашего Iceberg cluster.

Хранилище

Выберите вкладку, соответствующую вашему типу хранилища:

AWS S3
HDFS

Если ваш Iceberg cluster использует AWS S3 в качестве хранилища или AWS Glue в качестве metastore, выберите подходящий метод аутентификации и выполните необходимые подготовительные действия, чтобы убедиться, что ваш Selena cluster может получить доступ к соответствующим облачным ресурсам AWS.

Рекомендуются следующие методы аутентификации:

Instance profile
Assumed role
IAM user

Из вышеупомянутых трех методов аутентификации instance profile является наиболее широко используемым.

Для получения дополнительной информации см. Подготовка к аутентификации в AWS IAM.

Если вы выбираете HDFS в качестве хранилища, настройте свой Selena cluster следующим образом:

(Опционально) Установите имя пользователя, которое используется для доступа к вашему HDFS cluster и Hive metastore. По умолчанию Selena использует имя пользователя процессов FE и BE или CN для доступа к вашему HDFS cluster и Hive metastore. Вы также можете установить имя пользователя, добавив export HADOOP_USER_NAME="<user_name>" в начало файла fe/conf/hadoop_env.sh каждого FE и в начало файла be/conf/hadoop_env.sh каждого BE или файла cn/conf/hadoop_env.sh каждого CN. После установки имени пользователя в этих файлах перезапустите каждый FE и каждый BE или CN, чтобы настройки параметров вступили в силу. Вы можете установить только одно имя пользователя для каждого Selena cluster.
Когда вы запрашиваете данные Iceberg, FE и BE или CN вашего Selena cluster используют клиент HDFS для доступа к вашему HDFS cluster. В большинстве случаев вам не нужно настраивать свой Selena cluster для этой цели, и Selena запускает клиент HDFS, используя конфигурации по умолчанию. Вам нужно настроить свой Selena cluster только в следующих ситуациях:
- Высокая доступность (HA) включена для вашего HDFS cluster: добавьте файл hdfs-site.xml вашего HDFS cluster в путь $FE_HOME/conf каждого FE и в путь $BE_HOME/conf каждого BE или путь $CN_HOME/conf каждого CN.
- View File System (ViewFs) включена для вашего HDFS cluster: добавьте файл core-site.xml вашего HDFS cluster в путь $FE_HOME/conf каждого FE и в путь $BE_HOME/conf каждого BE или путь $CN_HOME/conf каждого CN.

подсказка

Если при отправке запроса возвращается ошибка, указывающая на неизвестный хост, вы должны добавить сопоставление между именами хостов и IP-адресами узлов вашего HDFS cluster в путь /etc/hosts.

Аутентификация Kerberos

Если для вашего HDFS cluster или Hive metastore включена аутентификация Kerberos, настройте свой Selena cluster следующим образом:

Запустите команду kinit -kt keytab_path principal на каждом FE и каждом BE или CN, чтобы получить Ticket Granting Ticket (TGT) из Key Distribution Center (KDC). Для выполнения этой команды вы должны иметь разрешения на доступ к вашему HDFS cluster и Hive metastore. Обратите внимание, что доступ к KDC с помощью этой команды зависит от времени. Поэтому вам нужно использовать cron для периодического выполнения этой команды.
Добавьте JAVA_OPTS="-Djava.security.krb5.conf=/etc/krb5.conf" в файл $FE_HOME/conf/fe.conf каждого FE и в файл $BE_HOME/conf/be.conf каждого BE или файл $CN_HOME/conf/cn.conf каждого CN. В этом примере /etc/krb5.conf — это путь сохранения файла krb5.conf. Вы можете изменить путь в соответствии с вашими потребностями.

Создание Iceberg catalog

Синтаксис

CREATE EXTERNAL CATALOG <catalog_name>
[COMMENT <comment>]
PROPERTIES
(
    "type" = "iceberg",
    [SecurityParams],
    MetastoreParams,
    StorageCredentialParams,
    MetadataRelatedParams
)

Параметры

catalog_name

Имя Iceberg catalog. Соглашения об именовании следующие:

Имя может содержать буквы, цифры (0-9) и символы подчеркивания (_). Оно должно начинаться с буквы.
Имя чувствительно к регистру и не может превышать 1023 символа.

comment

Описание Iceberg catalog. Этот параметр является опциональным.

type

Тип вашего источника данных. Установите значение iceberg.

SecurityParams

Параметр(ы) о том, как Selena управляет доступом к данным каталога.

Подробные инструкции по управлению доступом к данным для Iceberg-каталогов см. в разделе Настройка безопасности для Iceberg REST Catalog.

catalog.access.control

Политика контроля доступа к данным. Допустимые значения:

native (по умолчанию): используется встроенная система контроля доступа к данным Selena.
allowall: все проверки доступа к данным делегируются самому Catalog.
ranger: проверки доступа к данным делегируются Apache Ranger.

MetastoreParams

Набор параметров о том, как Selena интегрируется с metastore вашего источника данных. Выберите вкладку, соответствующую вашему типу metastore:

Hive metastore
AWS Glue
REST
JDBC

Hive metastore

Если вы выбираете Hive metastore в качестве metastore вашего источника данных, настройте MetastoreParams следующим образом:

"iceberg.catalog.type" = "hive",
"hive.metastore.uris" = "<hive_metastore_uri>"

примечание

Перед запросом данных Iceberg вы должны добавить сопоставление между именами хостов и IP-адресами узлов вашего Hive metastore в путь /etc/hosts. В противном случае Selena может не получить доступ к вашему Hive metastore при запуске запроса.

В следующей таблице описан параметр, который необходимо настроить в MetastoreParams.

iceberg.catalog.type
- Обязательный: Да
- Описание: Тип metastore, который вы используете для вашего Iceberg cluster. Установите значение hive.
hive.metastore.uris
- Обязательный: Да
- Описание: URI вашего Hive metastore. Формат: thrift://<metastore_IP_address>:<metastore_port>.
  Если для вашего Hive metastore включена высокая доступность (HA), вы можете указать несколько URI metastore и разделить их запятыми (,), например, "thrift://<metastore_IP_address_1>:<metastore_port_1>,thrift://<metastore_IP_address_2>:<metastore_port_2>,thrift://<metastore_IP_address_3>:<metastore_port_3>".

AWS Glue

Если вы выбираете AWS Glue в качестве metastore вашего источника данных, который поддерживается только при выборе AWS S3 в качестве хранилища, выполните одно из следующих действий:

Чтобы выбрать метод аутентификации на основе instance profile, настройте MetastoreParams следующим образом:
```
"iceberg.catalog.type" = "glue",
"aws.glue.use_instance_profile" = "true",
"aws.glue.region" = "<aws_glue_region>"
```
Чтобы выбрать метод аутентификации на основе assumed role, настройте MetastoreParams следующим образом:
```
"iceberg.catalog.type" = "glue",
"aws.glue.use_instance_profile" = "true",
"aws.glue.iam_role_arn" = "<iam_role_arn>",
"aws.glue.region" = "<aws_glue_region>"
```

Чтобы выбрать метод аутентификации на основе IAM user, настройте MetastoreParams следующим образом:

"iceberg.catalog.type" = "glue",
"aws.glue.use_instance_profile" = "false",
"aws.glue.access_key" = "<iam_user_access_key>",
"aws.glue.secret_key" = "<iam_user_secret_key>",
"aws.glue.region" = "<aws_s3_region>"

MetastoreParams для AWS Glue:

iceberg.catalog.type
- Обязательный: Да
- Описание: Тип metastore, который вы используете для вашего Iceberg cluster. Установите значение glue.
aws.glue.use_instance_profile
- Обязательный: Да
- Описание: Указывает, следует ли включить метод аутентификации на основе instance profile и метод аутентификации на основе assumed role. Допустимые значения: true и false. Значение по умолчанию: false.
aws.glue.iam_role_arn
- Обязательный: Нет
- Описание: ARN роли IAM, которая имеет привилегии в вашем AWS Glue Data Catalog. Если вы используете метод аутентификации на основе assumed role для доступа к AWS Glue, вы должны указать этот параметр.
aws.glue.region
- Обязательный: Да
- Описание: Регион, в котором находится ваш AWS Glue Data Catalog. Пример: us-west-1.
aws.glue.access_key
- Обязательный: Нет
- Описание: Ключ доступа вашего пользователя AWS IAM. Если вы используете метод аутентификации на основе IAM user для доступа к AWS Glue, вы должны указать этот параметр.
aws.glue.secret_key
- Обязательный: Нет
- Описание: Секретный ключ вашего пользователя AWS IAM. Если вы используете метод аутентификации на основе IAM user для доступа к AWS Glue, вы должны указать этот параметр.
aws.glue.catalog_id
- Обязательный: Нет
- Описание: ID AWS Glue Data Catalog для использования. Если не указано, используется каталог в текущей учетной записи AWS. Вы должны указать этот параметр, когда вам нужно получить доступ к Glue Data Catalog в другой учетной записи AWS (межаккаунтный доступ).

Для получения информации о том, как выбрать метод аутентификации для доступа к AWS Glue и как настроить политику контроля доступа в консоли AWS IAM, см. Параметры аутентификации для доступа к AWS Glue.

REST

примечание

Подробные инструкции по созданию Iceberg REST catalog для таблиц S3 см. в Создание Iceberg REST Catalog для таблиц AWS S3.

Если вы используете REST в качестве metastore, вы должны указать тип metastore как REST ("iceberg.catalog.type" = "rest"). Настройте MetastoreParams следующим образом:

"iceberg.catalog.type" = "rest",
"iceberg.catalog.uri" = "<rest_server_api_endpoint>",
"iceberg.catalog.security" = "oauth2",
"iceberg.catalog.oauth2.credential" = "<credential>",
"iceberg.catalog.warehouse" = "<identifier_or_path_to_warehouse>"

MetastoreParams для REST catalog:

iceberg.catalog.type
- Обязательный: Да
- Описание: Тип metastore, который вы используете для вашего Iceberg cluster. Установите значение rest. -
iceberg.catalog.uri
- Обязательный: Да
- Описание: URI конечной точки REST-службы. Пример: https://api.tabular.io/ws. -
iceberg.catalog.view-endpoints-supported
- Обязательный: Нет
- Описание: Использовать ли конечные точки представления для поддержки операций, связанных с представлениями, когда REST-служба более ранних версий не возвращает конечные точки в CatalogConfig. Этот параметр используется для обратной совместимости с REST-серверами ранних версий. По умолчанию: false.
iceberg.catalog.security
- Обязательный: Нет
- Описание: Тип протокола авторизации для использования. По умолчанию: NONE. Допустимые значения: OAUTH2 и JWT. Когда этот параметр установлен в OAUTH2, требуется либо token, либо credential. Когда этот параметр установлен в JWT, пользователь должен войти в Selena cluster, используя метод JWT. Вы можете опустить token или credential, и Selena будет использовать JWT вошедшего пользователя для доступа к каталогу.
iceberg.catalog.oauth2.token
- Обязательный: Нет
- Описание: Bearer token, используемый для взаимодействия с сервером. Для протокола авторизации OAUTH2 требуется token или credential. Пример: AbCdEf123456.
iceberg.catalog.oauth2.credential
- Обязательный: Нет
- Описание: Учетные данные для обмена на token в потоке учетных данных клиента OAuth2 с сервером. Для протокола авторизации OAUTH2 требуется token или credential. Пример: AbCdEf123456.
iceberg.catalog.oauth2.scope
- Обязательный: Нет
- Описание: Область, которая будет использоваться при взаимодействии с REST Catalog. Применимо только при использовании credential.
iceberg.catalog.oauth2.server-uri
- Обязательный: Нет
- Описание: Конечная точка для получения токена доступа от сервера OAuth2.
iceberg.catalog.vended-credentials-enabled
- Обязательный: Нет
- Описание: Использовать ли учетные данные, предоставленные REST backend, для доступа к файловой системе. По умолчанию: true.
iceberg.catalog.warehouse
- Обязательный: Нет
- Описание: Местоположение warehouse или идентификатор Iceberg catalog. Пример: s3://my_bucket/warehouse_location или sandbox. -
iceberg.catalog.rest.nested-namespace-enabled
- Обязательный: Нет
- Описание: Поддерживать ли запрос объектов в вложенном пространстве имен. По умолчанию: false.
iceberg.catalog.rest.view-endpoints-enabled
- Обязательный: Нет
- Описание: Включать ли конечные точки представления для операций, связанных с представлениями. Если установлено в false, операции с представлениями, такие как getView, будут отключены. По умолчанию: true.

Следующий пример создает Iceberg catalog с именем tabular, который использует Tabular в качестве metastore:

CREATE EXTERNAL CATALOG tabular
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "rest",
    "iceberg.catalog.uri" = "https://api.tabular.io/ws",
    "iceberg.catalog.oauth2.credential" = "t-5Ii8e3FIbT9m0:aaaa-3bbbbbbbbbbbbbbbbbbb",
    "iceberg.catalog.warehouse" = "sandbox"
);

Следующий пример создает Iceberg catalog с именем smith_polaris, который использует Polaris в качестве metastore:

CREATE EXTERNAL CATALOG smith_polaris
PROPERTIES (
    "iceberg.catalog.uri"  = "http://xxx.xx.xx.xxx:8181/api/catalog",
    "type"  =  "iceberg",
    "iceberg.catalog.type"  =  "rest",
    "iceberg.catalog.warehouse" = "selena_catalog",
    "iceberg.catalog.security" = "oauth2",
    "iceberg.catalog.oauth2.credential" = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
    "iceberg.catalog.oauth2.scope"='PRINCIPAL_ROLE:ALL'
 );

# `ns1.ns2.tpch_namespace` - вложенное пространство имен
create table smith_polaris.`ns1.ns2.tpch_namespace`.tbl (c1 string);

mysql> select * from smith_polaris.`ns1.ns2.tpch_namespace`.tbl;
+------+
| c1   |
+------+
| 1    |
| 2    |
| 3    |
+------+
3 rows in set (0.34 sec)

Следующий пример создает Iceberg catalog с именем r2, который использует Cloudflare R2 Data Catalog в качестве metastore:

CREATE EXTERNAL CATALOG r2
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "rest",
    "iceberg.catalog.uri" = "<r2_catalog_uri>",
    "iceberg.catalog.security" = "oauth2",
    "iceberg.catalog.oauth2.token" = "<r2_api_token>",
    "iceberg.catalog.warehouse" = "<r2_warehouse_name>"
);

SET CATALOG r2;

CREATE DATABASE testdb;

SHOW DATABASES FROM r2;

+--------------------+
| Database           |
+--------------------+
| information_schema |
| testdb             |
+--------------------+
2 rows in set (0.66 sec)

Значения <r2_warehouse_name>, <r2_api_token> и <r2_catalog_uri> получаются из панели Cloudflare, как описано здесь.

JDBC

Если вы выбираете JDBC в качестве metastore вашего источника данных, настройте MetastoreParams следующим образом:

"iceberg.catalog.type" = "jdbc",
"iceberg.catalog.uri" = "<jdbc_uri>",
"iceberg.catalog.warehouse" = "<warehouse_location>"

В следующей таблице описан параметр, который необходимо настроить в MetastoreParams.

iceberg.catalog.type
- Обязательный: Да
- Описание: Тип metastore, который вы используете для вашего Iceberg cluster. Установите значение jdbc.
iceberg.catalog.uri
- Обязательный: Да
- Описание: URI вашей базы данных. Формат: jdbc:[mysql\|postgresql]://<DB_IP_address>:<DB_PORT>/<DB_NAME>.
iceberg.catalog.warehouse
- Обязательный: Да
- Описание: Местоположение warehouse или идентификатор Iceberg catalog. Пример: s3://my_bucket/warehouse_location .
iceberg.catalog.jdbc.user
- Обязательный: Нет
- Описание: Имя пользователя для базы данных.
iceberg.catalog.jdbc.password
- Обязательный: Нет
- Описание: Пароль для базы данных.
iceberg.catalog.jdbc.init-catalog-tables
- Обязательный: Нет
- Описание: Создавать ли таблицы iceberg_namespace_properties и iceberg_tables для хранения метаданных в базе данных, указанной iceberg.catalog.uri. Значение по умолчанию — false. Укажите true, если эти две таблицы еще не были созданы в базе данных, указанной iceberg.catalog.uri.

Следующий пример создает Iceberg catalog с именем iceberg_jdbc и использует JDBC в качестве metastore:

CREATE EXTERNAL CATALOG iceberg_jdbc
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "jdbc",
    "iceberg.catalog.warehouse" = "s3://my_bucket/warehouse_location",
    "iceberg.catalog.uri" = "jdbc:mysql://ip:port/db_name",
    "iceberg.catalog.jdbc.user" = "username",
    "iceberg.catalog.jdbc.password" = "password",
    "aws.s3.endpoint" = "<s3_endpoint>",
    "aws.s3.access_key" = "<iam_user_access_key>",
    "aws.s3.secret_key" = "<iam_user_secret_key>"
);

При использовании MySQL или других пользовательских драйверов JDBC соответствующие файлы JAR необходимо поместить в каталоги fe/lib и be/lib/jni-packages.

`StorageCredentialParams`

Набор параметров о том, как Selena интегрируется с вашей системой хранения. Этот набор параметров является опциональным.

Обратите внимание на следующие моменты:

Если вы используете HDFS в качестве хранилища, вам не нужно настраивать StorageCredentialParams, и вы можете пропустить этот раздел. Если вы используете AWS S3, другую S3-совместимую систему хранения, Microsoft Azure Storage или Google GCS в качестве хранилища, вы должны настроить StorageCredentialParams.
Если вы используете Tabular в качестве metastore, вам не нужно настраивать StorageCredentialParams, и вы можете пропустить этот раздел. Если вы используете HMS или AWS Glue в качестве metastore, вы должны настроить StorageCredentialParams.

Выберите вкладку, соответствующую вашему типу хранилища:

AWS S3
HDFS
MinIO
Microsoft Azure Blob Storage
Google GCS

AWS S3

Если вы выбираете AWS S3 в качестве хранилища для вашего Iceberg cluster, выполните одно из следующих действий:

Чтобы выбрать метод аутентификации на основе instance profile, настройте StorageCredentialParams следующим образом:
```
"aws.s3.use_instance_profile" = "true",
"aws.s3.region" = "<aws_s3_region>"
```
Чтобы выбрать метод аутентификации на основе assumed role, настройте StorageCredentialParams следующим образом:
```
"aws.s3.use_instance_profile" = "true",
"aws.s3.iam_role_arn" = "<iam_role_arn>",
"aws.s3.region" = "<aws_s3_region>"
```

Чтобы выбрать метод аутентификации на основе IAM user, настройте StorageCredentialParams следующим образом:

"aws.s3.use_instance_profile" = "false",
"aws.s3.access_key" = "<iam_user_access_key>",
"aws.s3.secret_key" = "<iam_user_secret_key>",
"aws.s3.region" = "<aws_s3_region>"

Чтобы выбрать vended credential (поддерживается с v2.0.0) с REST catalog, настройте StorageCredentialParams следующим образом:
```
"aws.s3.region" = "<aws_s3_region>"
```

StorageCredentialParams для AWS S3:

aws.s3.use_instance_profile

Обязательный: Да
Описание: Указывает, следует ли включить метод аутентификации на основе instance profile и метод аутентификации на основе assumed role. Допустимые значения: true и false. Значение по умолчанию: false.

aws.s3.iam_role_arn

Обязательный: Нет
Описание: ARN роли IAM, которая имеет привилегии в вашем AWS S3 bucket. Если вы используете метод аутентификации на основе assumed role для доступа к AWS S3, вы должны указать этот параметр.

aws.s3.region

Обязательный: Да
Описание: Регион, в котором находится ваш AWS S3 bucket. Пример: us-west-1.

aws.s3.access_key

Обязательный: Нет
Описание: Ключ доступа вашего пользователя IAM. Если вы используете метод аутентификации на основе IAM user для доступа к AWS S3, вы должны указать этот параметр.

aws.s3.secret_key

Обязательный: Нет
Описание: Секретный ключ вашего пользователя IAM. Если вы используете метод аутентификации на основе IAM user для доступа к AWS S3, вы должны указать этот параметр.

Для получения информации о том, как выбрать метод аутентификации для доступа к AWS S3 и как настроить политику контроля доступа в консоли AWS IAM, см. Параметры аутентификации для доступа к AWS S3.

S3-совместимая система хранения

Iceberg catalogs поддерживают S3-совместимые системы хранения с v1.5.2.

Если вы выбираете S3-совместимую систему хранения, такую как MinIO, в качестве хранилища для вашего Iceberg cluster, настройте StorageCredentialParams следующим образом для обеспечения успешной интеграции:

"aws.s3.enable_ssl" = "false",
"aws.s3.enable_path_style_access" = "true",
"aws.s3.endpoint" = "<s3_endpoint>",
"aws.s3.access_key" = "<iam_user_access_key>",
"aws.s3.secret_key" = "<iam_user_secret_key>"

StorageCredentialParams для MinIO и других S3-совместимых систем:

aws.s3.enable_ssl

Обязательный: Да
Описание: Указывает, следует ли включить SSL-соединение.
Допустимые значения: true и false. Значение по умолчанию: true.

aws.s3.enable_path_style_access

Обязательный: Да
Описание: Указывает, следует ли включить доступ в стиле path.
Допустимые значения: true и false. Значение по умолчанию: false. Для MinIO вы должны установить значение true.
URL-адреса в стиле path используют следующий формат: https://s3.<region_code>.amazonaws.com/<bucket_name>/<key_name>. Например, если вы создаете bucket с именем DOC-EXAMPLE-BUCKET1 в регионе US West (Oregon) и хотите получить доступ к объекту alice.jpg в этом bucket, вы можете использовать следующий URL-адрес в стиле path: https://s3.us-west-2.amazonaws.com/DOC-EXAMPLE-BUCKET1/alice.jpg.

aws.s3.endpoint

Обязательный: Да
Описание: Конечная точка, которая используется для подключения к вашей S3-совместимой системе хранения вместо AWS S3.

aws.s3.access_key

Обязательный: Да
Описание: Ключ доступа вашего пользователя IAM.

aws.s3.secret_key

Обязательный: Да
Описание: Секретный ключ вашего пользователя IAM.

Microsoft Azure Storage

Iceberg catalogs поддерживают Microsoft Azure Storage с v1.5.2.

Azure Blob Storage

Если вы выбираете Blob Storage в качестве хранилища для вашего Iceberg cluster, выполните одно из следующих действий:

Чтобы выбрать метод аутентификации Shared Key, настройте StorageCredentialParams следующим образом:
```
"azure.blob.storage_account" = "<storage_account_name>",
"azure.blob.shared_key" = "<storage_account_shared_key>"
```

Чтобы выбрать метод аутентификации SAS Token, настройте StorageCredentialParams следующим образом:

"azure.blob.storage_account" = "<storage_account_name>",
"azure.blob.container" = "<container_name>",
"azure.blob.sas_token" = "<storage_account_SAS_token>"

Чтобы выбрать REST catalog с vended credential (поддерживается с v2.0.0), вам не нужно настраивать StorageCredentialParams.

StorageCredentialParams для Microsoft Azure:

azure.blob.storage_account

Обязательный: Да
Описание: Имя пользователя вашей учетной записи Blob Storage.

azure.blob.shared_key

Обязательный: Да
Описание: Общий ключ вашей учетной записи Blob Storage.

azure.blob.account_name

Обязательный: Да
Описание: Имя пользователя вашей учетной записи Blob Storage.

azure.blob.container

Обязательный: Да
Описание: Имя контейнера blob, в котором хранятся ваши данные.

azure.blob.sas_token

Обязательный: Да
Описание: SAS token, который используется для доступа к вашей учетной записи Blob Storage.

Azure Data Lake Storage Gen1

Если вы выбираете Data Lake Storage Gen1 в качестве хранилища для вашего Iceberg cluster, выполните одно из следующих действий:

Чтобы выбрать метод аутентификации Managed Service Identity, настройте StorageCredentialParams следующим образом:
```
"azure.adls1.use_managed_service_identity" = "true"
```

Или:

Чтобы выбрать метод аутентификации Service Principal, настройте StorageCredentialParams следующим образом:

"azure.adls1.oauth2_client_id" = "<application_client_id>",
"azure.adls1.oauth2_credential" = "<application_client_credential>",
"azure.adls1.oauth2_endpoint" = "<OAuth_2.0_authorization_endpoint_v2>"

Azure Data Lake Storage Gen2

Если вы выбираете Data Lake Storage Gen2 в качестве хранилища для вашего Iceberg cluster, выполните одно из следующих действий:

Чтобы выбрать метод аутентификации Managed Identity, настройте StorageCredentialParams следующим образом:

"azure.adls2.oauth2_use_managed_identity" = "true",
"azure.adls2.oauth2_tenant_id" = "<service_principal_tenant_id>",
"azure.adls2.oauth2_client_id" = "<service_client_id>"

Или:

Чтобы выбрать метод аутентификации Shared Key, настройте StorageCredentialParams следующим образом:
```
"azure.adls2.storage_account" = "<storage_account_name>",
"azure.adls2.shared_key" = "<storage_account_shared_key>"
```
Или:

Чтобы выбрать метод аутентификации Service Principal, настройте StorageCredentialParams следующим образом:

"azure.adls2.oauth2_client_id" = "<service_client_id>",
"azure.adls2.oauth2_client_secret" = "<service_principal_client_secret>",
"azure.adls2.oauth2_client_endpoint" = "<service_principal_client_endpoint>"

Чтобы выбрать REST catalog с vended credential (поддерживается с v2.0.0), вам не нужно настраивать StorageCredentialParams.

Google GCS

Iceberg catalogs поддерживают Google GCS с v1.5.2.

Если вы выбираете Google GCS в качестве хранилища для вашего Iceberg cluster, выполните одно из следующих действий:

Чтобы выбрать метод аутентификации на основе VM, настройте StorageCredentialParams следующим образом:
```
"gcp.gcs.use_compute_engine_service_account" = "true"
```

Чтобы выбрать метод аутентификации на основе service account, настройте StorageCredentialParams следующим образом:

"gcp.gcs.service_account_email" = "<google_service_account_email>",
"gcp.gcs.service_account_private_key_id" = "<google_service_private_key_id>",
"gcp.gcs.service_account_private_key" = "<google_service_private_key>"

Чтобы выбрать метод аутентификации на основе impersonation, настройте StorageCredentialParams следующим образом:
- Сделать VM instance выдающим себя за service account:
```
"gcp.gcs.use_compute_engine_service_account" = "true",
"gcp.gcs.impersonation_service_account" = "<assumed_google_service_account_email>"
```
- Сделать service account (временно называемый meta service account) выдающим себя за другой service account (временно называемый data service account):
```
"gcp.gcs.service_account_email" = "<google_service_account_email>",
"gcp.gcs.service_account_private_key_id" = "<meta_google_service_account_email>",
"gcp.gcs.service_account_private_key" = "<meta_google_service_account_email>",
"gcp.gcs.impersonation_service_account" = "<data_google_service_account_email>"
```
Чтобы выбрать REST catalog с vended credential (поддерживается с v2.0.0), вам не нужно настраивать StorageCredentialParams.

StorageCredentialParams для Google GCS:

gcp.gcs.service_account_email

Значение по умолчанию: ""
Пример: "user@hello.iam.gserviceaccount.com"
Описание: Адрес электронной почты в файле JSON, сгенерированном при создании service account.

gcp.gcs.service_account_private_key_id

Значение по умолчанию: ""
Пример: "61d257bd8479547cb3e04f0b9b6b9ca07af3b7ea"
Описание: ID приватного ключа в файле JSON, сгенерированном при создании service account.

gcp.gcs.service_account_private_key

Значение по умолчанию: ""
Пример: "-----BEGIN PRIVATE KEY----xxxx-----END PRIVATE KEY-----\n"
Описание: Приватный ключ в файле JSON, сгенерированном при создании service account.

gcp.gcs.impersonation_service_account

Значение по умолчанию: ""
Пример: "hello"
Описание: Service account, за который вы хотите выдать себя.

MetadataRelatedParams

Набор параметров о кэше метаданных Iceberg в Selena. Этот набор параметров является опциональным.

С v1.5.2 Selena поддерживает стратегию периодического обновления метаданных. В большинстве случаев вы можете игнорировать приведенные ниже параметры и не настраивать параметры политики, поскольку значения по умолчанию этих параметров уже обеспечивают производительность из коробки. Вы можете настроить режим парсинга метаданных Iceberg с помощью системной переменной plan_mode.

Параметр	По умолчанию	Описание
enable_iceberg_metadata_cache	true	Кэшировать ли метаданные, связанные с Iceberg, включая Table Cache, Partition Name Cache, а также Data File Cache и Delete Data File Cache в Manifest.
iceberg_manifest_cache_with_column_statistics	false	Кэшировать ли статистику столбцов.
refresh_iceberg_manifest_min_length	2 * 1024 * 1024	Минимальная длина файла Manifest, которая запускает обновление Data File Cache.
iceberg_data_file_cache_memory_usage_ratio	0.1	Максимальное соотношение использования памяти для кэша Manifest файлов данных. Поддерживается с v1.5.2.
iceberg_delete_file_cache_memory_usage_ratio	0.1	Максимальное соотношение использования памяти для кэша Manifest файлов удаления. Поддерживается с v1.5.2.
iceberg_table_cache_refresh_interval_sec	60	Интервал (в секундах), с которым запускается асинхронное обновление кэша таблиц Iceberg. Поддерживается с v1.5.2.

Начиная с v1.5.2, Selena может получать статистику таблиц Iceberg, читая метаданные Iceberg через установку следующих параметров, без активного запуска сбора статистики таблиц Iceberg.

Параметр	По умолчанию	Описание
enable_get_stats_from_external_metadata	false	Получать ли статистику из метаданных Iceberg. Когда этот параметр установлен в `true`, вы можете дополнительно контролировать, какой тип статистики собирать, через системную переменную `enable_get_stats_from_external_metadata`.

Примеры

Следующие примеры создают Iceberg catalog с именем iceberg_catalog_hms или iceberg_catalog_glue, в зависимости от типа metastore, который вы используете, для запроса данных из вашего Iceberg cluster. Выберите вкладку, соответствующую вашему типу хранилища:

AWS S3
HDFS
MinIO
Microsoft Azure Blob Storage
Google GCS

AWS S3

Если вы выбираете учетные данные на основе instance profile

Если вы используете Hive metastore в вашем Iceberg cluster, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "aws.s3.use_instance_profile" = "true",
    "aws.s3.region" = "us-west-2"
);

Если вы используете AWS Glue в вашем Amazon EMR Iceberg cluster, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_glue
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "glue",
    "aws.glue.use_instance_profile" = "true",
    "aws.glue.region" = "us-west-2",
    "aws.s3.use_instance_profile" = "true",
    "aws.s3.region" = "us-west-2"
);

Если вы выбираете учетные данные на основе assumed role

Если вы используете Hive metastore в вашем Iceberg cluster, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "aws.s3.use_instance_profile" = "true",
    "aws.s3.iam_role_arn" = "arn:aws:iam::081976408565:role/test_s3_role",
    "aws.s3.region" = "us-west-2"
);

Если вы используете AWS Glue в вашем Amazon EMR Iceberg cluster, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_glue
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "glue",
    "aws.glue.use_instance_profile" = "true",
    "aws.glue.iam_role_arn" = "arn:aws:iam::081976408565:role/test_glue_role",
    "aws.glue.region" = "us-west-2",
    "aws.s3.use_instance_profile" = "true",
    "aws.s3.iam_role_arn" = "arn:aws:iam::081976408565:role/test_s3_role",
    "aws.s3.region" = "us-west-2"
);

Если вы выбираете учетные данные на основе IAM user

Если вы используете Hive metastore в вашем Iceberg cluster, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "aws.s3.use_instance_profile" = "false",
    "aws.s3.access_key" = "<iam_user_access_key>",
    "aws.s3.secret_key" = "<iam_user_access_key>",
    "aws.s3.region" = "us-west-2"
);

Если вы используете AWS Glue в вашем Amazon EMR Iceberg cluster, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_glue
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "glue",
    "aws.glue.use_instance_profile" = "false",
    "aws.glue.access_key" = "<iam_user_access_key>",
    "aws.glue.secret_key" = "<iam_user_secret_key>",
    "aws.glue.region" = "us-west-2",
    "aws.s3.use_instance_profile" = "false",
    "aws.s3.access_key" = "<iam_user_access_key>",
    "aws.s3.secret_key" = "<iam_user_secret_key>",
    "aws.s3.region" = "us-west-2"
);

Если вы выбираете vended credential

Если вы выбираете REST catalog с vended credential, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG polaris_s3
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.uri" = "http://xxx:xxx/api/catalog",
    "iceberg.catalog.type" = "rest",
    "iceberg.catalog.rest.nested-namespace-enabled"="true",
    "iceberg.catalog.security" = "oauth2",
    "iceberg.catalog.oauth2.credential" = "xxxxx:xxxx",
    "iceberg.catalog.oauth2.scope"='PRINCIPAL_ROLE:ALL',
    "iceberg.catalog.warehouse" = "iceberg_catalog",
    "aws.s3.region" = "us-west-2"
);

HDFS

Если вы используете HDFS в качестве хранилища, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083"
);

S3-совместимая система хранения

Используя MinIO в качестве примера. Выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "aws.s3.enable_ssl" = "true",
    "aws.s3.enable_path_style_access" = "true",
    "aws.s3.endpoint" = "<s3_endpoint>",
    "aws.s3.access_key" = "<iam_user_access_key>",
    "aws.s3.secret_key" = "<iam_user_secret_key>"
);

Microsoft Azure Storage

Azure Blob Storage

Если вы выбираете метод аутентификации Shared Key, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.blob.storage_account" = "<blob_storage_account_name>",
    "azure.blob.shared_key" = "<blob_storage_account_shared_key>"
);

Если вы выбираете метод аутентификации SAS Token, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.blob.storage_account" = "<blob_storage_account_name>",
    "azure.blob.container" = "<blob_container_name>",
    "azure.blob.sas_token" = "<blob_storage_account_SAS_token>"
);

Если вы выбираете REST catalog с vended credential, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG polaris_azure
PROPERTIES (
    "type"  =  "iceberg",
    "iceberg.catalog.uri"  = "http://xxx:xxx/api/catalog",
    "iceberg.catalog.type"  =  "rest",
    "iceberg.catalog.rest.nested-namespace-enabled"="true",
    "iceberg.catalog.security" = "oauth2",
    "iceberg.catalog.oauth2.credential" = "xxxxx:xxxx",
    "iceberg.catalog.oauth2.scope"='PRINCIPAL_ROLE:ALL',
    "iceberg.catalog.warehouse" = "iceberg_catalog"
);

Azure Data Lake Storage Gen1

Если вы выбираете метод аутентификации Managed Service Identity, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.adls1.use_managed_service_identity" = "true"
);

Если вы выбираете метод аутентификации Service Principal, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.adls1.oauth2_client_id" = "<application_client_id>",
    "azure.adls1.oauth2_credential" = "<application_client_credential>",
    "azure.adls1.oauth2_endpoint" = "<OAuth_2.0_authorization_endpoint_v2>"
);

Azure Data Lake Storage Gen2

Если вы выбираете метод аутентификации Managed Identity, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.adls2.oauth2_use_managed_identity" = "true",
    "azure.adls2.oauth2_tenant_id" = "<service_principal_tenant_id>",
    "azure.adls2.oauth2_client_id" = "<service_client_id>"
);

Если вы выбираете метод аутентификации Shared Key, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.adls2.storage_account" = "<storage_account_name>",
    "azure.adls2.shared_key" = "<shared_key>"
);

Если вы выбираете метод аутентификации Service Principal, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "azure.adls2.oauth2_client_id" = "<service_client_id>",
    "azure.adls2.oauth2_client_secret" = "<service_principal_client_secret>",
    "azure.adls2.oauth2_client_endpoint" = "<service_principal_client_endpoint>"
);

Если вы выбираете REST catalog с vended credential, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG polaris_azure
PROPERTIES (
    "type"  =  "iceberg",
    "iceberg.catalog.uri"  = "http://xxx:xxx/api/catalog",
    "iceberg.catalog.type"  =  "rest",
    "iceberg.catalog.rest.nested-namespace-enabled"="true",
    "iceberg.catalog.security" = "oauth2",
    "iceberg.catalog.oauth2.credential" = "xxxxx:xxxx",
    "iceberg.catalog.oauth2.scope"='PRINCIPAL_ROLE:ALL',
    "iceberg.catalog.warehouse" = "iceberg_catalog"
);

Google GCS

Если вы выбираете метод аутентификации на основе VM, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "gcp.gcs.use_compute_engine_service_account" = "true"
);

Если вы выбираете метод аутентификации на основе service account, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "gcp.gcs.service_account_email" = "<google_service_account_email>",
    "gcp.gcs.service_account_private_key_id" = "<google_service_private_key_id>",
    "gcp.gcs.service_account_private_key" = "<google_service_private_key>"
);

Если вы выбираете метод аутентификации на основе impersonation:

Если вы делаете VM instance выдающим себя за service account, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "gcp.gcs.use_compute_engine_service_account" = "true",
    "gcp.gcs.impersonation_service_account" = "<assumed_google_service_account_email>"
);

Если вы делаете service account выдающим себя за другой service account, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "hive",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083",
    "gcp.gcs.service_account_email" = "<google_service_account_email>",
    "gcp.gcs.service_account_private_key_id" = "<meta_google_service_account_email>",
    "gcp.gcs.service_account_private_key" = "<meta_google_service_account_email>",
    "gcp.gcs.impersonation_service_account" = "<data_google_service_account_email>"
);

Если вы выбираете REST catalog с vended credential, выполните команду, подобную приведенной ниже:

CREATE EXTERNAL CATALOG polaris_gcp
PROPERTIES (
    "type"  =  "iceberg",
    "iceberg.catalog.uri"  = "http://xxx:xxx/api/catalog",
    "iceberg.catalog.type"  =  "rest",
    "iceberg.catalog.rest.nested-namespace-enabled"="true",
    "iceberg.catalog.security" = "oauth2",
    "iceberg.catalog.oauth2.credential" = "xxxxx:xxxx",
    "iceberg.catalog.oauth2.scope"='PRINCIPAL_ROLE:ALL',
    "iceberg.catalog.warehouse" = "iceberg_catalog"
);

Использование вашего каталога

Просмотр Iceberg catalogs

Вы можете использовать SHOW CATALOGS для запроса всех каталогов в текущем Selena cluster:

SHOW CATALOGS;

Вы также можете использовать SHOW CREATE CATALOG для запроса оператора создания внешнего каталога. Следующий пример запрашивает оператор создания Iceberg catalog с именем iceberg_catalog_glue:

SHOW CREATE CATALOG iceberg_catalog_glue;

Переключение на Iceberg Catalog и базу данных в нем

Вы можете использовать один из следующих методов для переключения на Iceberg catalog и базу данных в нем:

Используйте SET CATALOG для указания Iceberg catalog в текущей сессии, а затем используйте USE для указания активной базы данных:

-- Переключиться на указанный каталог в текущей сессии:
SET CATALOG <catalog_name>
-- Указать активную базу данных в текущей сессии:
USE <db_name>

Непосредственно используйте USE для переключения на Iceberg catalog и базу данных в нем:
```
USE <catalog_name>.<db_name>
```

Удаление Iceberg catalog

Вы можете использовать DROP CATALOG для удаления внешнего каталога.

Следующий пример удаляет Iceberg catalog с именем iceberg_catalog_glue:

DROP Catalog iceberg_catalog_glue;

Просмотр схемы таблицы Iceberg

Вы можете использовать один из следующих синтаксисов для просмотра схемы таблицы Iceberg:

Просмотр схемы

DESC[RIBE] <catalog_name>.<database_name>.<table_name>

Просмотр схемы и местоположения из оператора CREATE
```
SHOW CREATE TABLE <catalog_name>.<database_name>.<table_name>
```

Запрос таблицы Iceberg

Используйте SHOW DATABASES для просмотра баз данных в вашем Iceberg cluster:
```
SHOW DATABASES FROM <catalog_name>
```
Переключитесь на Iceberg catalog и базу данных в нем.
Используйте SELECT для запроса целевой таблицы в указанной базе данных:
```
SELECT count(*) FROM <table_name> LIMIT 10
```

Создание базы данных Iceberg

Аналогично внутреннему каталогу Selena, если у вас есть привилегия CREATE DATABASE на Iceberg catalog, вы можете использовать оператор CREATE DATABASE для создания баз данных в этом Iceberg catalog. Эта функция поддерживается с v1.5.2.

подсказка

Вы можете предоставлять и отзывать привилегии с помощью GRANT и REVOKE.

Переключитесь на Iceberg catalog, а затем используйте следующий оператор для создания базы данных Iceberg в этом каталоге:

CREATE DATABASE <database_name>
[PROPERTIES ("location" = "<prefix>://<path_to_database>/<database_name.db>/")]

Вы можете использовать параметр location для указания пути к файлу, в котором вы хотите создать базу данных. Поддерживаются как HDFS, так и облачное хранилище. Если вы не указываете параметр location, Selena создает базу данных в пути к файлу по умолчанию Iceberg catalog.

prefix варьируется в зависимости от используемой вами системы хранения:

HDFS

Значение Prefix: hdfs

Google GCS

Значение Prefix: gs

Azure Blob Storage

Значение Prefix:

Если ваша учетная запись хранения разрешает доступ по HTTP, prefix — wasb.
Если ваша учетная запись хранения разрешает доступ по HTTPS, prefix — wasbs.

Azure Data Lake Storage Gen1

Значение Prefix: adl

Azure Data Lake Storage Gen2

Значение Prefix:

Если ваша учетная запись хранения разрешает доступ по HTTP, prefix — abfs.
Если ваша учетная запись хранения разрешает доступ по HTTPS, prefix — abfss.

AWS S3 или другое S3-совместимое хранилище (например, MinIO)

Значение Prefix: s3

Удаление базы данных Iceberg

Аналогично внутренним базам данных Selena, если у вас есть привилегия DROP на базу данных Iceberg, вы можете использовать оператор DROP DATABASE для удаления этой базы данных Iceberg. Эта функция поддерживается с v1.5.2. Вы можете удалять только пустые базы данных.

Когда вы удаляете базу данных Iceberg, путь к файлу базы данных на вашем HDFS cluster или облачном хранилище не будет удален вместе с базой данных.

Переключитесь на Iceberg catalog, а затем используйте следующий оператор для удаления базы данных Iceberg в этом каталоге:

DROP DATABASE <database_name>;

Создание таблицы Iceberg

Аналогично внутренним базам данных Selena, если у вас есть привилегия CREATE TABLE на базу данных Iceberg, вы можете использовать оператор CREATE TABLE или CREATE TABLE AS SELECT для создания таблицы в этой базе данных Iceberg. Эта функция поддерживается с v1.5.2.

Переключитесь на Iceberg catalog и базу данных в нем, а затем используйте следующий синтаксис для создания таблицы Iceberg в этой базе данных.

Синтаксис

CREATE TABLE [IF NOT EXISTS] [database.]table_name
(column_definition1[, column_definition2, ...
partition_column_definition1,partition_column_definition2...])
[partition_desc]
[ORDER BY sort_desc)]
[PROPERTIES ("key" = "value", ...)]
[AS SELECT query]

Параметры

column_definition

Синтаксис column_definition следующий:

col_name col_type [COMMENT 'comment']

примечание

Все столбцы, не являющиеся partition columns, должны использовать NULL в качестве значения по умолчанию. Это означает, что вы должны указать DEFAULT "NULL" для каждого столбца, не являющегося partition column, в операторе создания таблицы. Кроме того, partition columns должны быть определены после столбцов, не являющихся partition columns, и не могут использовать NULL в качестве значения по умолчанию.

partition_desc

Синтаксис partition_desc следующий:

PARTITION BY (partition_expr[, partition_expr...])

Каждый partition_expr может быть одной из следующих форм:

column_name
| transform_expr(column_name)
| transform_expr(column_name, parameter)

В настоящее время Selena поддерживает выражения преобразования partition, определенные в спецификации Apache Iceberg transform expr. Это позволяет Selena создавать таблицы Iceberg со скрытыми partition на основе преобразованных значений столбцов.

примечание

Partition columns должны быть определены после столбцов, не являющихся partition columns. Partition columns поддерживают все типы данных, за исключением FLOAT, DOUBLE, DECIMAL и DATETIME, и не могут использовать NULL в качестве значения по умолчанию.

ORDER BY

С v2.0.0 Selena поддерживает указание ключей сортировки для таблицы Iceberg через предложение ORDER BY, которое можно использовать для сортировки данных в одном файле данных в соответствии с указанным ключом сортировки.

Предложение ORDER BY может содержать более одного ключа сортировки в следующем формате:

ORDER BY (column_name [sort_direction] [nulls_order], ...)

column_name: Имя столбца, который будет использоваться в качестве ключа сортировки. Это должен быть столбец, существующий в схеме таблицы. В настоящее время выражения преобразования не поддерживаются.
sort_direction: Направление сортировки. Допустимые значения: ASC (по умолчанию) и DESC.
nulls_order: Порядок NULL значений. Допустимые значения: NULLS FIRST (по умолчанию, когда указано ASC) и NULLS LAST (по умолчанию, когда указано DESC).

sort_direction и nulls_order являются опциональными. Например, каждый из следующих является допустимым sort_desc:

column_name
column_name ASC
column_name DESC NULLS FIRST

PROPERTIES

Вы можете указать атрибуты таблицы в формате "key" = "value" в PROPERTIES. См. Атрибуты таблиц Iceberg.

В следующей таблице описаны несколько ключевых свойств.

location

Описание: Путь к файлу, в котором вы хотите создать таблицу Iceberg. Когда вы используете HMS в качестве metastore, вам не нужно указывать параметр location, поскольку Selena создаст таблицу в пути к файлу по умолчанию текущего Iceberg catalog. Когда вы используете AWS Glue в качестве metastore:

Если вы указали параметр location для базы данных, в которой вы хотите создать таблицу, вам не нужно указывать параметр location для таблицы. В этом случае таблица по умолчанию находится в пути к файлу базы данных, к которой она принадлежит.
Если вы не указали location для базы данных, в которой вы хотите создать таблицу, вы должны указать параметр location для таблицы.

file_format

Описание: Формат файла таблицы Iceberg. Поддерживается только формат Parquet. Значение по умолчанию: parquet.

compression_codec

Описание: Алгоритм сжатия, используемый для таблицы Iceberg. Поддерживаемые алгоритмы сжатия: SNAPPY, GZIP, ZSTD и LZ4. Значение по умолчанию: zstd.

Примеры

Создайте таблицу без partition с именем unpartition_tbl. Таблица состоит из двух столбцов, id и score, как показано ниже:
```
CREATE TABLE unpartition_tbl
(
    id int,
    score double
);
```
Создайте таблицу с partition с именем partition_tbl_1. Таблица состоит из трех столбцов, action, id и dt, из которых id и dt определены как partition columns, как показано ниже:
```
CREATE TABLE partition_tbl_1
(
    action varchar(20),
    id int,
    dt date
)
PARTITION BY (id,dt);
```
Запросите существующую таблицу с именем partition_tbl_1 и создайте таблицу с partition с именем partition_tbl_2 на основе результата запроса partition_tbl_1. Для partition_tbl_2 id и dt определены как partition columns, как показано ниже:
```
CREATE TABLE partition_tbl_2
PARTITION BY (id, dt)
AS SELECT * from employee;
```
Создайте таблицу с именем partition_tbl_3 со скрытыми partition. Таблица содержит три столбца: action, id и dt. Среди них id и dt используются в качестве ключей partition, но partition определены выражениями преобразования, поэтому эти partition являются скрытыми.

  CREATE TABLE partition_tbl_3 (
    action VARCHAR(20),
    id INT,
    dt DATE
  )
  PARTITION BY bucket(id, 10), year(dt);

Эволюция спецификации partition (ADD/DROP PARTITION COLUMN)

Selena поддерживает эволюцию спецификации partition таблицы Iceberg путем добавления или удаления partition columns (включая выражения преобразования) с помощью ALTER TABLE ... ADD|DROP PARTITION COLUMN.

Синтаксис

ALTER TABLE [catalog.][database.]table_name
ADD PARTITION COLUMN partition_expr [, partition_expr ...];

ALTER TABLE [catalog.][database.]table_name
DROP PARTITION COLUMN partition_expr [, partition_expr ...];

partition_expr может быть именем столбца (identity transform) или одним из поддерживаемых выражений преобразования. Поддерживаемые выражения преобразования: year, month, day, hour, truncate и bucket.

Примеры

ALTER TABLE test_part_evo
ADD PARTITION COLUMN dt, truncate(value, 10), bucket(id, 10);

ALTER TABLE test_part_evo
DROP PARTITION COLUMN dt;

ALTER TABLE test_part_evo
ADD PARTITION COLUMN month(dt);

Запись данных в таблицу Iceberg

Аналогично внутренним таблицам Selena, если у вас есть привилегия INSERT на таблицу Iceberg, вы можете использовать оператор INSERT для записи данных таблицы Selena в эту таблицу Iceberg (в настоящее время поддерживаются только таблицы Iceberg формата Parquet). Эта функция поддерживается с v1.5.2.

Переключитесь на Iceberg catalog и базу данных в нем, а затем используйте следующий синтаксис для записи данных таблицы Selena в таблицу Iceberg формата Parquet в этой базе данных.

Синтаксис

INSERT {INTO | OVERWRITE} <table_name>
[ (column_name [, ...]) ]
{ VALUES ( { expression | DEFAULT } [, ...] ) [, ...] | query }

-- Если вы хотите записать данные в указанные partition, используйте следующий синтаксис:
INSERT {INTO | OVERWRITE} <table_name>
PARTITION (par_col1=<value> [, par_col2=<value>...])
{ VALUES ( { expression | DEFAULT } [, ...] ) [, ...] | query }

примечание

Partition columns не допускают значений NULL. Поэтому вы должны убедиться, что в partition columns таблицы Iceberg не загружаются пустые значения.

Параметры

INTO

Для добавления данных таблицы Selena к таблице Iceberg.

OVERWRITE

Для перезаписи существующих данных таблицы Iceberg данными таблицы Selena.

column_name

Имя целевого столбца, в который вы хотите загрузить данные. Вы можете указать один или несколько столбцов. Если вы указываете несколько столбцов, разделите их запятыми (,). Вы можете указывать только столбцы, которые фактически существуют в таблице Iceberg, и целевые столбцы, которые вы указываете, должны включать partition columns таблицы Iceberg. Целевые столбцы, которые вы указываете, сопоставляются один к одному последовательно со столбцами таблицы Selena, независимо от названий целевых столбцов. Если целевые столбцы не указаны, данные загружаются во все столбцы таблицы Iceberg. Если столбец таблицы Selena, не являющийся partition column, не может быть сопоставлен ни с одним столбцом таблицы Iceberg, Selena записывает значение по умолчанию NULL в столбец таблицы Iceberg. Если оператор INSERT содержит оператор запроса, возвращаемые типы столбцов которого отличаются от типов данных целевых столбцов, Selena выполняет неявное преобразование несовпадающих столбцов. Если преобразование не удается, будет возвращена ошибка синтаксического анализа.

expression

Выражение, которое присваивает значения целевому столбцу.

DEFAULT

Присваивает значение по умолчанию целевому столбцу.

query

Оператор запроса, результат которого будет загружен в таблицу Iceberg. Это может быть любой оператор SQL, поддерживаемый Selena.

PARTITION

Partition, в которые вы хотите загрузить данные. Вы должны указать все partition columns таблицы Iceberg в этом свойстве. Partition columns, которые вы указываете в этом свойстве, могут быть в другой последовательности, чем partition columns, которые вы определили в операторе создания таблицы. Если вы указываете это свойство, вы не можете указать свойство column_name.

Примеры

Вставьте три строки данных в таблицу partition_tbl_1:

INSERT INTO partition_tbl_1
VALUES
    ("buy", 1, "2023-09-01"),
    ("sell", 2, "2023-09-02"),
    ("buy", 3, "2023-09-03");

Вставьте результат запроса SELECT, который содержит простые вычисления, в таблицу partition_tbl_1:
```
INSERT INTO partition_tbl_1 (id, action, dt) SELECT 1+1, 'buy', '2023-09-03';
```
Вставьте результат запроса SELECT, который читает данные из таблицы partition_tbl_1, в ту же таблицу:
```
INSERT INTO partition_tbl_1 SELECT 'buy', 1, date_add(dt, INTERVAL 2 DAY)
FROM partition_tbl_1
WHERE id=1;
```
Вставьте результат запроса SELECT в partition, которые соответствуют двум условиям, dt='2023-09-01' и id=1, таблицы partition_tbl_2:
```
INSERT INTO partition_tbl_2 SELECT 'order', 1, '2023-09-01';
```
Или
```
INSERT INTO partition_tbl_2 partition(dt='2023-09-01',id=1) SELECT 'order';
```
Перезаписать все значения столбца action в partition, которые соответствуют двум условиям, dt='2023-09-01' и id=1, таблицы partition_tbl_1 на close:
```
INSERT OVERWRITE partition_tbl_1 SELECT 'close', 1, '2023-09-01';
```
Или
```
INSERT OVERWRITE partition_tbl_1 partition(dt='2023-09-01',id=1) SELECT 'close';
```

Удаление таблицы Iceberg

Аналогично внутренним таблицам Selena, если у вас есть привилегия DROP на таблицу Iceberg, вы можете использовать оператор DROP TABLE для удаления этой таблицы Iceberg. Эта функция поддерживается с v1.5.2.

Когда вы удаляете таблицу Iceberg, путь к файлу таблицы и данные на вашем HDFS cluster или облачном хранилище не будут удалены вместе с таблицей.

Когда вы принудительно удаляете таблицу Iceberg (а именно, с ключевым словом FORCE, указанным в операторе DROP TABLE), данные таблицы на вашем HDFS cluster или облачном хранилище будут удалены вместе с таблицей, но путь к файлу таблицы сохраняется.

Переключитесь на Iceberg catalog и базу данных в нем, а затем используйте следующий оператор для удаления таблицы Iceberg в этой базе данных.

DROP TABLE <table_name> [FORCE];

Создание представления Iceberg

Вы можете определять представления Iceberg в Selena или добавлять диалект Selena к существующему представлению Iceberg. Запросы к таким представлениям Iceberg поддерживают абстрагирование диалекта Selena этих представлений. Эта функция поддерживается с v1.5.2.

CREATE VIEW [IF NOT EXISTS]
[<catalog>.<database>.]<view_name>
(
    <column_name>[ COMMENT 'column comment']
    [, <column_name>[ COMMENT 'column comment'], ...]
)
[COMMENT 'view comment']
[PROPERTIES ("key" = "value", ...)]
AS <query_statement>

Пример

Создайте представление Iceberg iceberg_view1 на основе таблицы Iceberg iceberg_table.

CREATE VIEW IF NOT EXISTS iceberg.iceberg_db.iceberg_view1 AS
SELECT k1, k2 FROM iceberg.iceberg_db.iceberg_table;

С v2.0.0 вы можете указывать атрибуты представления в формате "key" = "value" в PROPERTIES.

CREATE VIEW IF NOT EXISTS iceberg.iceberg_db.iceberg_view1
PROPERTIES (
  "key1" = "value1",
  "key2" = "value2"
)
AS
SELECT k1, k2 FROM iceberg.iceberg_db.iceberg_table;

Добавление или изменение диалекта Selena для существующего представления Iceberg

Если ваши представления Iceberg созданы из других систем, таких как Apache Spark, при этом вы хотите запрашивать эти представления из Selena, вы можете добавить диалект Selena к этим представлениям. Эта функция поддерживается с v1.5.2.

примечание

Вы должны гарантировать, что основные значения обоих диалектов представления идентичны. Selena и другие системы не гарантируют согласованность между различными определениями.
Вы можете определить только один диалект Selena для каждого представления Iceberg. Вы можете изменить определение диалекта с помощью предложения MODIFY.

ALTER VIEW
[<catalog>.<database>.]<view_name>
(
    <column_name>
    [, <column_name>]
)
{ ADD | MODIFY } DIALECT
<query_statement>

Пример

Добавьте диалект Selena к существующему представлению Iceberg iceberg_view2.

ALTER VIEW iceberg.iceberg_db.iceberg_view2 ADD DIALECT SELECT k1, k2 FROM iceberg.iceberg_db.iceberg_table;

Измените диалект Selena для существующего представления Iceberg iceberg_view2.

ALTER VIEW iceberg.iceberg_db.iceberg_view2 MODIFY DIALECT SELECT k1, k2, k3 FROM iceberg.iceberg_db.iceberg_table;

Ручная компакция

С v2.0.0 Selena поддерживает ручную компакцию таблиц Iceberg.

Каждый раз, когда данные загружаются в таблицу Iceberg, генерируются новые файлы данных и метаданных. С течением времени чрезмерное количество файлов данных может значительно замедлить генерацию плана запроса и оказать влияние на производительность.

В этом случае вам нужно выполнить ручную компакцию таблицы или partition, чтобы объединить небольшие файлы данных и тем самым улучшить производительность.

Синтаксис

ALTER TABLE [catalog.][database.]table_name
EXECUTE rewrite_data_files
("key"=value [,"key"=value, ...])
[WHERE <predicate>]

Параметры

Свойства `rewrite_data_files`

Пары "key"=value, которые объявляют поведение ручной компакции. Обратите внимание, что вам нужно обернуть ключ в двойные кавычки.

`min_file_size_bytes`

Описание: Верхний предел небольшого файла данных. Файлы данных, размер которых меньше этого значения, будут объединены во время компакции.
Единица: Байт
Тип: Int
По умолчанию: 268,435,456 (256 МБ)

`batch_size`

Описание: Максимальный размер данных, которые могут быть обработаны в каждой партии.
Единица: Байт
Тип: Int
По умолчанию: 10,737,418,240 (10 ГБ)

`rewrite_all`

Описание: Перезаписывать ли все файлы данных во время компакции, игнорируя параметры, которые фильтруют файлы данных с определенными требованиями.
Единица: -
Тип: Boolean
По умолчанию: false

Предложение `WHERE`

Описание: Предикат фильтра, используемый для указания partition, которые будут участвовать в компакции.

Пример

Следующий пример выполняет ручную компакцию определенных partition в таблице Iceberg t1. Partition представлены предложением WHERE part_col = 'p1'. В этих partition файлы данных, которые меньше 134,217,728 байт (128 МБ), будут объединены во время компакции.

ALTER TABLE t1 EXECUTE rewrite_data_files("min_file_size_bytes"= 134217728) WHERE part_col = 'p1';

Настройка кэширования метаданных

Файлы метаданных вашего Iceberg cluster могут храниться в удаленном хранилище, таком как AWS S3 или HDFS. По умолчанию Selena кэширует метаданные Iceberg в памяти. Чтобы ускорить запросы, Selena использует двухуровневый механизм кэширования метаданных, с помощью которого она может кэшировать метаданные как в памяти, так и на диске. Для каждого первоначального запроса Selena кэширует результаты их вычислений. Если последующий запрос, семантически эквивалентный предыдущему, выполняется, Selena сначала пытается извлечь запрошенные метаданные из своих кэшей, и она извлекает метаданные из удаленного хранилища только тогда, когда метаданные не могут быть найдены в ее кэшах.

Selena использует алгоритм Least Recently Used (LRU) для кэширования и вытеснения данных. Основные правила следующие:

Selena сначала пытается извлечь запрошенные метаданные из памяти. Если метаданные не могут быть найдены в памяти, Selena пытается извлечь метаданные с дисков. Метаданные, которые Selena извлекла с дисков, будут загружены в память. Если метаданные также не могут быть найдены на дисках, Selena извлекает метаданные из удаленного хранилища и кэширует извлеченные метаданные в памяти.
Selena записывает метаданные, вытесненные из памяти, на диски, но напрямую отбрасывает метаданные, вытесненные с дисков.

С v1.5.2 Selena поддерживает стратегию периодического обновления метаданных. Вы можете настроить план кэширования метаданных Iceberg с помощью системной переменной plan_mode.

Конфигурации FE по кэшированию метаданных Iceberg

enable_iceberg_metadata_disk_cache

Единица: Н/Д
Значение по умолчанию: false
Описание: Указывает, следует ли включить кэш диска.

iceberg_metadata_cache_disk_path

Единица: Н/Д
Значение по умолчанию: SelenaFE.SELENA_HOME_DIR + "/caches/iceberg"
Описание: Путь сохранения кэшированных файлов метаданных на диске.

iceberg_metadata_disk_cache_capacity

Единица: Байты
Значение по умолчанию: 2147483648, эквивалентно 2 ГБ
Описание: Максимальный размер кэшированных метаданных, разрешенных на диске.

iceberg_metadata_memory_cache_capacity

Единица: Байты
Значение по умолчанию: 536870912, эквивалентно 512 МБ
Описание: Максимальный размер кэшированных метаданных, разрешенных в памяти.

iceberg_metadata_memory_cache_expiration_seconds

Единица: Секунды
Значение по умолчанию: 86500
Описание: Количество времени, после которого запись кэша в памяти истекает, отсчитываемое от ее последнего доступа.

iceberg_metadata_disk_cache_expiration_seconds

Единица: Секунды
Значение по умолчанию: 604800, эквивалентно одной неделе
Описание: Количество времени, после которого запись кэша на диске истекает, отсчитываемое от ее последнего доступа.

iceberg_metadata_cache_max_entry_size

Единица: Байты
Значение по умолчанию: 8388608, эквивалентно 8 МБ
Описание: Максимальный размер файла, который может быть кэширован. Файлы, размер которых превышает значение этого параметра, не могут быть кэшированы. Если запрос запрашивает эти файлы, Selena извлекает их из удаленного хранилища.

enable_background_refresh_connector_metadata

Единица: -
Значение по умолчанию: true
Описание: Включать ли периодическое обновление кэша метаданных Iceberg. После включения Selena опрашивает metastore (Hive Metastore или AWS Glue) вашего Iceberg cluster и обновляет кэшированные метаданные часто используемых Iceberg catalogs для восприятия изменений данных. true указывает на включение обновления кэша метаданных Iceberg, а false указывает на отключение.

background_refresh_metadata_interval_millis

Единица: Миллисекунда
Значение по умолчанию: 600000
Описание: Интервал между двумя последовательными обновлениями кэша метаданных Iceberg. - Единица: миллисекунда.

background_refresh_metadata_time_secs_since_last_access_sec

Единица: Секунда
Значение по умолчанию: 86400
Описание: Время истечения задачи обновления кэша метаданных Iceberg. Для Iceberg catalog, к которому был осуществлен доступ, если к нему не было доступа более указанного времени, Selena прекращает обновление его кэшированных метаданных. Для Iceberg catalog, к которому не было доступа, Selena не будет обновлять его кэшированные метаданные.

Приложение A: Стратегия периодического обновления метаданных

Iceberg поддерживает snapshots. С новейшим snapshot вы можете получить новейший результат. Поэтому только кэшированные snapshots могут влиять на свежесть данных. В результате вам нужно обращать внимание только на стратегию обновления кэша, содержащего snapshot.

Следующая блок-схема показывает временные интервалы на временной шкале.

Timeline for updating and discarding cached metadata

Приложение B: Парсинг файлов метаданных

Распределенный план для большого объема метаданных

Для эффективной обработки большого объема метаданных Selena использует распределенный подход с использованием нескольких узлов BE и CN. Этот метод использует возможности параллельных вычислений современных движков запросов, которые могут распределять задачи, такие как чтение, декомпрессия и фильтрация файлов manifest, по нескольким узлам. Обрабатывая эти файлы manifest параллельно, время, необходимое для извлечения метаданных, значительно сокращается, что приводит к более быстрому планированию заданий. Это особенно полезно для больших запросов, включающих множество файлов manifest, поскольку устраняет узкие места в одной точке и повышает общую эффективность выполнения запросов.
Локальный план для небольшого объема метаданных

Для меньших запросов, где повторная декомпрессия и парсинг файлов manifest могут вводить ненужные задержки, используется другая стратегия. Selena кэширует десериализованные объекты памяти, особенно файлы Avro, для решения этой проблемы. Храня эти десериализованные файлы в памяти, система может обойти этапы декомпрессии и парсинга для последующих запросов. Этот механизм кэширования позволяет получить прямой доступ к необходимым метаданным, значительно сокращая время извлечения. В результате система становится более отзывчивой и лучше подходит для удовлетворения высоких требований к запросам и потребностей перезаписи материализованных представлений.
Адаптивная стратегия извлечения метаданных (по умолчанию)

Selena спроектирована для автоматического выбора подходящего метода извлечения метаданных на основе различных факторов, включая количество узлов FE и BE/CN, количество их ядер CPU и количество файлов manifest, необходимых для текущего запроса. Этот адаптивный подход гарантирует, что система динамически оптимизирует извлечение метаданных без необходимости ручной настройки параметров, связанных с метаданными. Таким образом, Selena обеспечивает бесшовный опыт, балансируя между распределенными и локальными планами для достижения оптимальной производительности запросов в различных условиях.

Вы можете настроить план кэширования метаданных Iceberg с помощью системной переменной plan_mode.

Примечания по использованию​

Подготовка к интеграции​

Хранилище​

Аутентификация Kerberos​

Создание Iceberg catalog​

Синтаксис​

Параметры​

catalog_name​

comment​

type​

SecurityParams​

catalog.access.control​

MetastoreParams​

Hive metastore​

AWS Glue​

REST​

JDBC​

StorageCredentialParams​

AWS S3​

aws.s3.use_instance_profile​

aws.s3.iam_role_arn​

aws.s3.region​

aws.s3.access_key​

aws.s3.secret_key​

S3-совместимая система хранения​

aws.s3.enable_ssl​

aws.s3.enable_path_style_access​

aws.s3.endpoint​

aws.s3.access_key​

aws.s3.secret_key​

Microsoft Azure Storage​

Azure Blob Storage​

azure.blob.storage_account​

azure.blob.shared_key​

azure.blob.account_name​

azure.blob.container​

azure.blob.sas_token​

Azure Data Lake Storage Gen1​

Azure Data Lake Storage Gen2​

Google GCS​

gcp.gcs.service_account_email​

gcp.gcs.service_account_private_key_id​

gcp.gcs.service_account_private_key​

gcp.gcs.impersonation_service_account​

MetadataRelatedParams​

Примеры​

AWS S3​

Если вы выбираете учетные данные на основе instance profile​

Если вы выбираете учетные данные на основе assumed role​

Если вы выбираете учетные данные на основе IAM user​

Если вы выбираете vended credential​

HDFS​

S3-совместимая система хранения​

Microsoft Azure Storage​

Azure Blob Storage​

Azure Data Lake Storage Gen1​

Azure Data Lake Storage Gen2​

Google GCS​

Использование вашего каталога​

Просмотр Iceberg catalogs​

Переключение на Iceberg Catalog и базу данных в нем​

Удаление Iceberg catalog​

Просмотр схемы таблицы Iceberg​

Запрос таблицы Iceberg​

Создание базы данных Iceberg​

HDFS​

Google GCS​

Azure Blob Storage​

Azure Data Lake Storage Gen1​

Azure Data Lake Storage Gen2​

AWS S3 или другое S3-совместимое хранилище (например, MinIO)​

Удаление базы данных Iceberg​

Создание таблицы Iceberg​

Синтаксис​

Параметры​

column_definition​

partition_desc​

ORDER BY​

PROPERTIES​

location​

Примечания по использованию

Подготовка к интеграции

Хранилище

Аутентификация Kerberos

Создание Iceberg catalog

Синтаксис

Параметры

catalog_name

comment

type

SecurityParams

catalog.access.control

MetastoreParams

Hive metastore

AWS Glue

REST

JDBC

`StorageCredentialParams`

AWS S3

aws.s3.use_instance_profile

aws.s3.iam_role_arn

aws.s3.region

aws.s3.access_key

aws.s3.secret_key

S3-совместимая система хранения

aws.s3.enable_ssl

aws.s3.enable_path_style_access

aws.s3.endpoint

aws.s3.access_key

aws.s3.secret_key

Microsoft Azure Storage

Azure Blob Storage

azure.blob.storage_account

azure.blob.shared_key

azure.blob.account_name

azure.blob.container

azure.blob.sas_token

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen2

Google GCS

gcp.gcs.service_account_email

gcp.gcs.service_account_private_key_id

gcp.gcs.service_account_private_key

gcp.gcs.impersonation_service_account

MetadataRelatedParams

Примеры

AWS S3

Если вы выбираете учетные данные на основе instance profile

Если вы выбираете учетные данные на основе assumed role

Если вы выбираете учетные данные на основе IAM user

Если вы выбираете vended credential

HDFS

S3-совместимая система хранения

Microsoft Azure Storage

Azure Blob Storage

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen2

Google GCS

Использование вашего каталога

Просмотр Iceberg catalogs

Переключение на Iceberg Catalog и базу данных в нем

Удаление Iceberg catalog

Просмотр схемы таблицы Iceberg

Запрос таблицы Iceberg

Создание базы данных Iceberg

HDFS

Google GCS

Azure Blob Storage

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen2

AWS S3 или другое S3-совместимое хранилище (например, MinIO)

Удаление базы данных Iceberg

Создание таблицы Iceberg

Синтаксис

Параметры

column_definition

partition_desc

ORDER BY

PROPERTIES

location