Загрузка данных из MinIO
Selena предоставляет следующие варианты для загрузки данных из MinIO:
- Синхронная загрузка с использованием INSERT+
FILES() - Асинхронная загрузка с использованием Broker Load
Каждый из этих вариантов имеет свои преимущества, которые подробно описаны в следующих разделах.
В большинстве случаев мы рекомендуем использовать метод INSERT+FILES(), который намного проще в использовании.
Однако метод INSERT+FILES() в настоящее время поддерживает только форматы файлов Parquet, ORC и CSV. Поэ тому, если вам нужно загрузить данные других форматов файлов, таких как JSON, или выполнить изменения данных, такие как DELETE во время загрузки данных, вы можете использовать Broker Load.
Перед началом работы
Подготовка исходных данных
Убедитесь, что исходные данные, которые вы хотите загрузить в Selena, правильно сохранены в bucket MinIO. Вы также можете рассмотреть расположение данных и базы данных, поскольку затраты на передачу данных намного ниже, когда ваш bucket и кластер Selena находятся в одном регионе.
В этой теме мы предоставляем вам образец набора данных. Вы можете скачать его с помощью curl:
curl -O https://starrocks-examples.s3.amazonaws.com/user_behavior_ten_million_rows.parquet
Загрузите файл Parquet в вашу систему MinIO и запомните имя bucket. В примерах этого руководства
используется имя bucket /starrocks.
Проверка привилегий
Вы можете загружать данные в таблицы Selena только как пользователь, имеющий привилегию INSERT на эти таблицы Selena. Если у вас нет привилегии INSERT, следуйте инструкциям в GRANT, чтобы предоставить привилегию INSERT пользователю, которого вы используете для подключения к вашему кластеру Selena. Синтаксис: GRANT INSERT ON TABLE <table_name> IN DATABASE <database_name> TO { ROLE <role_name> | USER <user_identity>}.
Сбор данных для п одключения
В двух словах, для использования аутентификации MinIO Access Key вам необходимо собрать следующую информацию:
- Bucket, в котором хранятся ваши данные
- Ключ объекта (имя объекта), если вы обращаетесь к конкретному объекту в bucket
- Конечная точка MinIO
- Ключ доступа и секретный ключ, используемые в качестве учетных данных для доступа.

Использование INSERT+FILES()
Этот метод доступен начиная с версии 1.5.0 и в настоящее время поддерживает только форматы файлов Parquet, ORC и CSV (начиная с v3.3.0).