Версия: 2.0.x

Apache Iceberg Lakehouse

Это руководство поможет вам начать работу с Apache Iceberg™ используя Selena™, включая примеры кода для демонстрации некоторых мощных возможностей.

Docker-Compose

Самый быстрый способ начать — использовать файл docker-compose, который использует образы selena/fe-ubuntu и selena/be-ubuntu, содержащие локальный cluster Selena с настроенным каталогом Iceberg. Для этого вам нужно установить Docker CLI.

После установки Docker сохраните приведенный ниже yaml в файл с именем docker-compose.yml:

services:

  selena-fe:
    image: selena/fe-ubuntu:4.0-latest
    hostname: selena-fe
    container_name: selena-fe
    user: root
    command: |
      bash /opt/selena/fe/bin/start_fe.sh --host_type FQDN
    ports:
      - 8030:8030
      - 9020:9020
      - 9030:9030
    networks:
      iceberg_net:
    environment:
      - AWS_ACCESS_KEY_ID=admin
      - AWS_SECRET_ACCESS_KEY=password
      - AWS_REGION=us-east-1
    healthcheck:
      test: 'mysql -u root -h selena-fe -P 9030 -e "SHOW FRONTENDS\G" |grep "Alive: true"'
      interval: 10s
      timeout: 5s
      retries: 3

  selena-be:
    image: selena/be-ubuntu:4.0-latest
    command:
      - /bin/bash
      - -c
      - |
        ulimit -n 65535;
        echo "# Enable data cache"  >> /opt/selena/be/conf/be.conf
        echo "block_cache_enable = true"  >> /opt/selena/be/conf/be.conf
        echo "block_cache_mem_size = 536870912" >> /opt/selena/be/conf/be.conf
        echo "block_cache_disk_size = 1073741824" >> /opt/selena/be/conf/be.conf
        sleep 15s
        mysql --connect-timeout 2 -h selena-fe -P 9030 -u root -e "ALTER SYSTEM ADD BACKEND \"selena-be:9050\";"
        bash /opt/selena/be/bin/start_be.sh
    ports:
      - 8040:8040
    hostname: selena-be
    container_name: selena-be
    user: root
    depends_on:
      selena-fe:
        condition: service_healthy
    healthcheck:
      test: 'mysql -u root -h selena-fe -P 9030 -e "SHOW BACKENDS\G" |grep "Alive: true"'
      interval: 10s
      timeout: 5s
      retries: 3
    networks:
      iceberg_net:
    environment:
      - HOST_TYPE=FQDN

  rest:
    image: apache/iceberg-rest-fixture
    container_name: iceberg-rest
    networks:
      iceberg_net:
        aliases:
          - iceberg-rest.minio
    ports:
      - 8181:8181
    environment:
      - AWS_ACCESS_KEY_ID=admin
      - AWS_SECRET_ACCESS_KEY=password
      - AWS_REGION=us-east-1
      - CATALOG_WAREHOUSE=s3://warehouse/
      - CATALOG_IO__IMPL=org.apache.iceberg.aws.s3.S3FileIO
      - CATALOG_S3_ENDPOINT=http://minio:9000

  minio:
    image: minio/minio:RELEASE.2024-10-29T16-01-48Z
    container_name: minio
    environment:
      - MINIO_ROOT_USER=admin
      - MINIO_ROOT_PASSWORD=password
      - MINIO_DOMAIN=minio
    networks:
      iceberg_net:
        aliases:
          - warehouse.minio
    ports:
      - 9001:9001
      - 9000:9000
    command: ["server", "/data", "--console-address", ":9001"]
  mc:
    depends_on:
      - minio
    image: minio/mc:RELEASE.2024-10-29T15-34-59Z
    container_name: mc
    networks:
      iceberg_net:
    environment:
      - AWS_ACCESS_KEY_ID=admin
      - AWS_SECRET_ACCESS_KEY=password
      - AWS_REGION=us-east-1
    entrypoint: >
      /bin/sh -c "
      until (/usr/bin/mc config host add minio http://minio:9000 admin password) do echo '...waiting...' && sleep 1; done;
      /usr/bin/mc rm -r --force minio/warehouse;
      /usr/bin/mc mb minio/warehouse;
      /usr/bin/mc policy set public minio/warehouse;
      tail -f /dev/null
      "
networks:
  iceberg_net:

Затем запустите контейнеры docker с помощью этой команды:

docker compose up --detach --wait --wait-timeout 400

После этого вы можете выполнить любую из следующих команд, чтобы начать сессию Selena.

docker exec -it selena-fe \
mysql -P 9030 -h 127.0.0.1 -u root --prompt="Selena > "

Добавление и использование каталога

CREATE EXTERNAL CATALOG 'demo'
COMMENT "External catalog to Apache Iceberg on MinIO"
PROPERTIES
(
  "type"="iceberg",
  "iceberg.catalog.type"="rest",
  "iceberg.catalog.uri"="http://iceberg-rest:8181",
  "iceberg.catalog.warehouse"="warehouse",
  "aws.s3.access_key"="admin",
  "aws.s3.secret_key"="password",
  "aws.s3.endpoint"="http://minio:9000",
  "aws.s3.enable_path_style_access"="true"
);

SHOW CATALOGS\G

*************************** 1. row ***************************
Catalog: default_catalog
   Type: Internal
Comment: An internal catalog contains this cluster's self-managed tables.
*************************** 2. row ***************************
Catalog: demo
   Type: Iceberg
Comment: External catalog to Apache Iceberg on MinIO
2 rows in set (0.00 sec)

SET CATALOG demo;

Создание и использование базы данных

CREATE DATABASE nyc;

USE nyc;

Создание таблицы

CREATE TABLE demo.nyc.taxis
(
    trip_id            bigint,
    trip_distance      float,
    fare_amount double,
    store_and_fwd_flag string,
    vendor_id          bigint
) PARTITION BY (vendor_id);

Запись данных в таблицу

INSERT INTO demo.nyc.taxis
VALUES (1000371, 1.8, 15.32, 'N', 1),
       (1000372, 2.5, 22.15, 'N', 2),
       (1000373, 0.9, 9.01, 'N', 2),
       (1000374, 8.4, 42.13, 'Y', 1);

Чтение данных из таблицы

SELECT *
FROM demo.nyc.taxis;

Проверка хранения данных в объектном хранилище

Когда вы добавили и использовали внешний каталог, Selena начала использовать MinIO в качестве объектного хранилища для таблицы demo.nyc.taxis. Если вы перейдете по адресу http://localhost:9001 и затем перейдете через меню Object Browser к warehouse/nyc/taxis/, вы можете подтвердить, что Selena использует MinIO для хранения.

подсказка

Имя пользователя и пароль для MinIO находятся в файле docker-compose.yml. Вам будет предложено изменить пароль на что-то более надежное, просто проигнорируйте этот совет для данного руководства.

Следующие шаги

Добавление Iceberg в Selena

Если у вас уже есть среда Selena версии 3.2.0 или новее, она уже включает Iceberg 1.6.0. Дополнительные загрузки или jar-файлы не требуются.

Узнать больше

Теперь, когда вы запустили Iceberg и Selena, ознакомьтесь с документацией Selena-Iceberg, чтобы узнать больше!

Docker-Compose​

Добавление и использование каталога​

Создание и использование базы данных​

Создание таблицы​

Запись данных в таблицу​

Чтение данных из таблицы​

Проверка хранения данных в объектном хранилище​

Следующие шаги​

Добавление Iceberg в Selena​

Узнать больше​