Поддержка функций: Загрузка и выгрузка данных
Этот документ описывает функции различных методов загрузки и выгрузки данных, поддерживаемых Selena.
Формат файлов
Форматы файлов для загрузки
| Источник данных | Формат файла | |||||||
|---|---|---|---|---|---|---|---|---|
| CSV | JSON [3] | Parquet | ORC | Avro | ProtoBuf | Thrift | ||
| Stream Load | Локальные файловые системы, приложения, коннекторы | Да | Да | Будет поддерживаться | Будет поддерживаться | Будет поддерживаться | ||
| INSERT from FILES | HDFS, S3, OSS, Azure, GCS, NFS(NAS) [5] | Да (v3.3+) | Будет поддерживаться | Да (v3.1+) | Да (v3.1+) | Будет поддерживаться | ||
| Broker Load | Да | Да (v3.2.3+) | Да | Да | Будет поддерживаться | |||
| Routine Load | Kafka | Да | Да | Будет поддерживаться | Будет поддерживаться | Да (v3.0+) [1] | Будет поддерживаться | Будет поддерживаться |
| Spark Load | Да | Будет поддерживаться | Да | Да | Будет поддерживаться | |||
| Коннекторы | Flink, Spark | Да | Да | Будет поддерживаться | Будет поддерживаться | Будет поддерживаться | ||
| Kafka Connector [2] | Kafka | Да (v3.0+) | Будет поддерживаться | Будет поддерживаться | Да (v3.0+) | Будет поддерживаться | ||
| PIPE [4] | Соответствует INSERT from FILES | |||||||
[1], [2]: Требуется Schema Registry.
[3]: JSON поддерживает различные форматы CDC. Подробности о форматах JSON CDC, поддерживаемых Selena, см. в разделе Форматы JSON CDC.
[4]: В настоящее время для загрузки с помощью PIPE поддерживается только INSERT from FILES.
[5]: Необходимо смонтировать устройство NAS как NFS в одном и том же каталоге каждого узла BE или CN для доступа к файлам в NFS через протокол file://.
Форматы JSON CDC
| Stream Load | Routine Load | Broker Load | INSERT from FILES | Kafka Connector [1] | |
|---|---|---|---|---|---|
| Debezium | Будет поддерживаться | Будет поддерживаться | Будет поддерживаться | Будет поддерживаться | Да (v3.0+) |
| Canal | Будет поддерживаться | ||||
| Maxwell | |||||
[1]: При загрузке данных в формате Debezium CDC в таблицы с первичным ключом в Selena необходимо настроить параметр transforms.
Форматы файлов для выгрузки
| Цель | Формат файла | |||||
|---|---|---|---|---|---|---|
| Формат таблицы | Удаленное хранилище | CSV | JSON | Parquet | ORC | |
| INSERT INTO FILES | N/A | HDFS, S3, OSS, Azure, GCS, NFS(NAS) [3] | Да (v3.3+) | Будет поддерживаться | Да (v3.2+) | Да (v3.3+) |
| INSERT INTO Catalog | Hive | HDFS, S3, OSS, Azure, GCS | Да (v3.3+) | Будет поддерживаться | Да (v3.2+) | Да (v3.3+) |
| Iceberg | HDFS, S3, OSS, Azure, GCS | Будет поддерживаться | Будет поддерживаться | Да (v3.2+) | Будет поддерживаться | |
| Hudi/Delta | Будет поддерживаться | |||||
| EXPORT | N/A | HDFS, S3, OSS, Azure, GCS | Да [1] | Будет поддерживаться | Будет поддерживаться | Будет поддерживаться |
| PIPE | Будет поддерживаться [2] | |||||
[1]: Поддерживается настройка процесса Broker.
[2]: В настоящее время выгрузка данных с помощью PIPE не поддерживается.
[3]: Необходимо смонтиро вать устройство NAS как NFS в одном и том же каталоге каждого узла BE или CN для доступа к файлам в NFS через протокол file://.
Параметры, связанные с форматом файлов
Параметры, связанные с форматом файлов для загрузки
| Формат файла | Параметр | Метод загрузки | ||||
|---|---|---|---|---|---|---|
| Stream Load | INSERT from FILES | Broker Load | Routine Load | Spark Load | ||
| CSV | column_separator | Да | Да (v3.3+) | Да [1] | ||
| row_delimiter | Да | Да [2] (v3.1+) | Да [3] (v2.2+) | Будет поддерживаться | ||
| enclose | Да (v3.0+) | Да (v3.0+) | Да (v3.0+) | Будет поддерживаться | ||
| escape | ||||||
| skip_header | Будет поддерживаться | |||||
| trim_space | Да (v3.0+) | |||||
| JSON | jsonpaths | Да | Будет поддерживаться | Да (v3.2.3+) | Да | Будет поддерживаться |
| strip_outer_array | ||||||
| json_root | ||||||
| ignore_json_size | Будет поддерживаться | |||||
[1]: Соответствующий параметр — COLUMNS TERMINATED BY.
[2]: Соответствующий параметр — ROWS TERMINATED BY.
[3]: Соответствующий параметр — ROWS TERMINATED BY.
Параметры, связанные с форматом файлов для вы грузки
| Формат файла | Параметр | Метод выгрузки | |
|---|---|---|---|
| INSERT INTO FILES | EXPORT | ||
| CSV | column_separator | Да (v3.3+) | Да |
| line_delimiter [1] | |||
[1]: Соответствующий параметр при загрузке данных — row_delimiter.