Routine Load
Загрузка данных с помощью Routine Load
Попробуйте Routine Load в этом Быстром старте
Эта тема знакомит с тем, как создать задание Routine Load для потоковой передачи сообщений Kafka (событий) в Selena, и знакомит с некоторыми основными концепциями Routine Load.
Для непрерывной загрузки сообщений потока в Selena вы можете сохранить поток сообщений в топике Kafka и создать задание Routine Load для потребления сообщений. З адание Routine Load сохраняется в Selena, генерирует серию задач загрузки для потребления сообщений во всех или части разделов топика и загружает сообщения в Selena.
Задание Routine Load поддерживает семантику доставки exactly-once для гарантии того, что данные, загруженные в Selena, не будут потеряны или дублированы.
Routine Load поддерживает преобразование данных при загрузке и поддерживает изменения данных, выполняемые операциями UPSERT и DELETE во время загрузки данных. Для получения дополнительной информации см. Преобразование данных при загрузке и Изменение данных через загрузку.
Вы можете загружать данные в таблицы Selena только как пользователь, имеющий привилегию INSERT на эти таблицы Selena. Если у вас нет привилегии INSERT, следуйте инструкциям в GRANT, чтобы предоставить привилегию INSERT пользователю, которого вы используете для подключения к вашему кластеру Selena. Синтаксис: GRANT INSERT ON TABLE <table_name> IN DATABASE <database_name> TO { ROLE <role_name> | USER <user_identity>}.
Поддержива емые форматы данных
Routine Load теперь поддерживает потребление данных в форматах CSV, JSON и Avro (поддерживается с версии v1.5.2) из кластера Kafka.
ПРИМЕЧАНИЕ
Для данных CSV обратите внимание на следующие моменты:
- Вы можете использовать строку UTF-8, такую как запятая (,), табуляция или вертикальная черта (|), длина которой не превышает 50 байт, в качестве разделителя текста.
- Нулевые значения обозначаются с помощью
\N. Например, файл данных состоит из трех столбцов, и запись из этого файла данных содержит данные в первом и третьем столбцах, но не содержит данных во втором столбце. В этой ситуации вам нужно использовать\Nво втором столбце для обозначения нулевого значения. Это означает, что запись должна быть скомпилирована какa,\N,bвместоa,,b.a,,bозначает, что второй столбец записи содержит пустую строку.
Основные концепции

Терминология
-
Задание загрузки
Задание Routine Load — это долго выполняющееся задание. Пока его статус RUNNING, задание загрузки непрерывно генерирует одну или несколько параллельных задач загрузки, которые потребляют сообщения в топике кластера Kafka и загружают данные в Selena.
-
Задача загрузки
Задание загрузки разделяется на несколько задач загрузки по определенным правилам. Задача загрузки является основной единицей загрузки данных. Как отдельное событие, задача загрузки реализует механизм загрузки на основе Stream Load. Несколько задач загрузки одновременно потребляют сообщения из разных разделов топика и загружают данные в Selena.