Загрузка данных из GCS
Selena предоставляет следующие варианты загрузки данных из GCS:
- Синхронная загрузка с использованием INSERT+
FILES() - Асинхронная загрузка с использованием Broker Load
Каждый из этих вариантов имеет свои преимущества, которые подробно описаны в следующих разделах.
В большинстве случаев мы рекомендуем использовать метод INSERT+FILES(), который гораздо проще в использовании.
Однако метод INSERT+FILES() в настоящее время поддерживает только форматы файлов Parquet, ORC и CSV. Поэтому, если вам нужно загрузить данные других форматов файлов, таких как JSON, или выполнить изменения данных, такие как DELETE, во время загрузки данных, вы можете использовать Broker Load.
Перед началом работы
Подготовка исходных данных
Убедитесь, что исходные данные, которые вы хотите загрузить в Selena, правильно хранятся в bucket GCS. Вы также можете рассмотреть, где находятся данные и база данных, потому что затраты на передачу данных значительно ниже, когда ваш bucket и ваш cluster Selena находятся в одном регионе.
В этой теме мы предоставляем вам пример набора данных в bucket GCS, gs://selena-samples/user_behavior_ten_million_rows.parquet. Вы может е получить доступ к этому набору данных с любыми действительными учётными данными, так как объект доступен для чтения любому пользователю GCP.
Проверка привилегий
Вы можете загружать данные в таблицы Selena только как пользователь, имеющий привилегию INSERT на эти таблицы Selena. Если у вас нет привилегии INSERT, следуйте инструкциям в разделе GRANT, чтобы предоставить привилегию INSERT пользователю, которого вы используете для подключения к вашему cluster Selena. Синтаксис: GRANT INSERT ON TABLE <table_name> IN DATABASE <database_name> TO { ROLE <role_name> | USER <user_identity>}.
Сбор данных аутентификации
Примеры в этой теме используют аутентификацию на основе сервисной учётной записи. Чтобы практиковать аутентификацию на основе IAM-пользователя, вам нужно собрать информацию о следующих ресурсах GCS:
- Bucket GCS, в котором хранятся ваши данные.
- Ключ объекта GCS (имя объекта), если вы обращаетесь к определённому объекту в bucket. Обратите внимание, что ключ объекта может включать префикс, если ваши объекты GCS хранятся в подпапках.
- Регион GCS, к которому принадлежит bucket GCS.
private_key_id,private_keyиclient_emailвашей сервисной учётной записи Google Cloud
Для получения информации обо всех доступных методах аутентификации см. Аутентификация в Google Cloud Storage.
Использование INSERT+FILES()
Этот метод доступен начиная с версии v1.5.2 и в настоящее время поддерживает только форматы файлов Parquet, ORC и CSV (начиная с версии v1.5.2).