Загрузка данных из Microsoft Azure Storage
Selena предоставляет следующие варианты для загрузки данных из Azure:
- Синхронная загрузка с использованием INSERT+
FILES() - Асинхронная загрузка с использованием Broker Load
Каждый из этих вариантов имеет свои преимущества, которые подробно описаны в следующих разделах.
В большинстве случаев мы рекомендуем использовать метод INSERT+FILES(), который гораздо проще в использовании.
Однако метод INSERT+FILES() в настоящее время поддерживает только форматы фа йлов Parquet, ORC и CSV. Поэтому, если вам нужно загрузить данные других форматов файлов, таких как JSON, или выполнить изменения данных, такие как DELETE во время загрузки данных, вы можете использовать Broker Load.
Перед началом работы
Подготовьте исходные данные
Убедитесь, что исходные данные, которые вы хотите загрузить в Selena, правильно сохранены в контейнере в вашей учетной записи хранения Azure.
В этой теме предполагается, что вы хотите загрузить данные образца набора данных в формате Parquet (user_behavior_ten_million_rows.parquet), хранящегося в корневом каталоге контейнера (starrocks-container) в учетной записи хранения Azure Data Lake Storage Gen2 (ADLS Gen2) (starrocks).