Перейти к основному содержимому

Dataphin

Dataphin — это облачное решение, основанное на внутренних практиках методологии управления данными OneData группы Alibaba. Оно предоставляет комплексное решение для интеграции, построения, управления и использования данных на протяжении всего жизненного цикла больших данных, направленное на помощь предприятиям в значительном повышении уровня управления данными и создании корпоративной платформы данных высокого и надежного качества, удобного потребления, безопасного и экономичного производства. Dataphin предоставляет поддержку различных вычислительных платформ и масштабируемые открытые возможности для удовлетворения технической архитектуры платформы и специфических требований предприятий различных отраслей.

Существует несколько способов интеграции Dataphin с Selena:

  • В качестве источника или целевого источника данных для интеграции данных. Данные могут быть прочитаны из Selena и переданы в другие источники данных, или данные могут быть извлечены из других источников данных и записаны в Selena.

  • В качестве исходной таблицы (неограниченное сканирование), таблицы измерений (ограниченное сканирование) или результирующей таблицы (потоковый приемник и пакетный приемник) для разработки flink SQL и datastream.

  • В качестве хранилища данных или витрины данных. Selena может быть зарегистрирована как вычислительный источник, который можно использовать для разработки SQL-скриптов, планирования, обнаружения качества данных, идентификации безопасности и других задач исследования и управления данными.

Интеграция данных

Вы можете создавать источники данных Selena и использовать источники данных Selena в качестве исходных баз данных или целевых баз данных в задачах автономной интеграции. Процедура выглядит следующим образом:

Создание источника данных Selena

Основная информация

Create a Selena data source - 1

  • Имя: Обязательно. Введите имя источника данных. Может содержать только китайские символы, буквы, цифры, подчеркивания (_) и дефисы (-). Не может превышать 64 символа в длину.

  • Код источника данных: Необязательно. После настройки кода источника данных вы можете использовать формат код источника данных.таблица или код источника данных.схема.таблица для ссылки на Flink SQL в источнике данных. Если вы хотите автоматически получить доступ к источнику данных в соответствующей среде, используйте формат доступа ${код источника данных}.таблица или ${код источника данных}.схема.таблица.

    ПРИМЕЧАНИЕ

    В настоящее время поддерживаются только источники данных MySQL, Hologres и MaxCompute.

  • Поддерживаемые сценарии: Сценарии, в которых может применяться источник данных.

  • Описание: Необязательно. Вы можете ввести краткое описание источника данных. Максимум 128 символов.

  • Среда: Если бизнес-источник данных различает производственный источник данных и источник данных разработки, выберите Prod и Dev. Если бизнес-источник данных не различает производственные и разработческие источники данных, выберите Prod.

  • Теги: Вы можете выбрать теги для маркировки источников данных.

Информация о конфигурации

Create a Selena data source - 2

  • JDBC URL: Обязательно. Формат: jdbc:mysql://<host>:<port>/<dbname>. host — это IP-адрес хоста FE (Front End) в кластере Selena, port — это порт запросов FE, а dbname — имя базы данных.

  • Load URL: Обязательно. Формат: fe_ip:http_port;fe_ip:http_port. fe_ip — это хост FE (Front End), а http_port — порт FE.

  • Имя пользователя: Обязательно. Имя пользователя базы данных.

  • Пароль: Обязательно. Пароль базы данных.

Расширенные настройки

Create a Selena data source - 3

  • connectTimeout: время ожидания подключения (в мс) базы данных. Значение по умолчанию — 900000 миллисекунд (15 минут).

  • socketTimeout: время ожидания сокета (в мс) базы данных. Значение по умолчанию — 1800000 миллисекунд (30 минут).

Чтение данных из источников данных Selena и запись данных в другие источники данных

Перетащите входной компонент Selena на холст задачи автономной интеграции

Read data from Selena - 1

Конфигурация входного компонента Selena

Read data from Selena - 2

  • Имя шага: Введите подходящее имя на основе сценария и расположения текущего компонента.

  • Источник данных: Выберите источник данных Selena или проект, созданный в Dataphin. Требуется разрешение на чтение источника данных. Если нет подходящего источника данных, вы можете добавить источник данных или подать заявку на соответствующие разрешения.

  • Исходная таблица: Выберите одну таблицу или несколько таблиц с одинаковой структурой таблицы в качестве входных данных.

  • Таблица: Выберите таблицу в источнике данных Selena из выпадающего списка.

  • Ключ разделения: Используется с конфигурацией параллелизма. Вы можете использовать столбец в исходной таблице данных в качестве ключа разделения. Рекомендуется использовать первичный ключ или индексированный столбец в качестве ключа разделения.

  • Номер пакета: Количество записей данных, извлекаемых в пакете.

  • Фильтрация входных данных: Необязательно.

    В следующих двух случаях необходимо заполнить информацию о фильтре:

    • Если вы хотите отфильтровать определенную часть данных.
    • Если вам нужно инкрементально добавлять данные ежедневно или получать полные данные, вам нужно заполнить дату, значение которой устанавливается как системное время консоли Dataphin. Например, таблица транзакций в Selena и дата создания транзакции устанавливается как ${bizdate}.
  • Выходные поля: Перечислите связанные поля на основе информации входной таблицы. Вы можете переименовать, удалить, добавить и переместить поля снова. В общем, поля переименовываются для повышения читаемости нижестоящих данных или облегчения сопоставления полей во время вывода. Поля могут быть удалены на этапе ввода, поскольку соответствующие поля не нужны в сценариях применения. Порядок полей изменяется для обеспечения эффективного объединения данных или сопоставления выходных данных путем сопоставления полей с разными именами в одной строке при объединении нескольких входных данных или выводе на нижестоящей стороне.

Выберите и настройте выходной компонент в качестве целевого источника данных

Read data from Selena - 3

Чтение данных из других источников данных и запись данных в источники данных Selena

Настройте входной компонент в задаче автономной интеграции и выберите и настройте выходной компонент Selena в качестве целевого источника данных

Write data to Selena - 1

Настройка выходного компонента Selena

Write data to Selena - 2

  • Имя шага: введите подходящее имя на основе сценария и расположения текущего компонента.

  • Источник данных: Выберите источник данных Dataphin или проект, созданный в Selena. Источник данных, на который у персонала конфигурации есть разрешение на синхронную запись. Если источник данных не удовлетворяет требованиям, вы можете добавить источник данных или подать заявку на соответствующие разрешения.

  • Таблица: Выберите таблицу в источнике данных Selena из выпадающего списка.

  • Создать целевую таблицу одним щелчком: Если вы не создали целевую таблицу в источнике данных Selena, вы можете автоматически получить имя, тип и примечания полей, прочитанных из вышестоящего источника, и сгенерировать оператор создания таблицы. Нажмите, чтобы создать целевую таблицу одним щелчком.

  • Разделитель столбцов импорта CSV: Используйте StreamLoad CSV для импорта. Вы можете настроить разделитель столбцов импорта CSV. Значение по умолчанию \t. Не указывайте здесь значение по умолчанию. Если сами данные содержат \t, вы должны использовать другие символы в качестве разделителей.

  • Разделитель строк импорта CSV: Используйте StreamLoad CSV для импорта. Вы можете настроить разделитель строк импорта CSV. Значение по умолчанию: \n. Не указывайте здесь значение по умолчанию. Если сами данные содержат \n, вы должны использовать другие символы в качестве разделителей.

  • Решение для разбора: Необязательно. Это некоторая специальная обработка до или после записи данных. Оператор подготовки выполняется перед записью данных в источник данных Selena, а оператор завершения выполняется после записи данных.

  • Сопоставление полей: Вы можете вручную выбрать поля для сопоставления или использовать сопоставление на основе имени или позиции для обработки нескольких полей одновременно на основе полей из вышестоящего ввода и полей в целевой таблице.

Разработка в реальном времени

Краткое введение

Selena — это быстрая и масштабируемая база данных анализа в реальном времени. Она обычно используется в вычислениях реального времени для чтения и записи данных для удовлетворения потребностей анализа и запросов данных в реальном времени. Она широко используется в корпоративных сценариях вычислений реального времени. Может использоваться в мониторинге и анализе бизнеса в реальном времени, анализе поведения пользователей в реальном времени, системе торгов рекламы в реальном времени, контроле рисков в реальном времени, борьбе с мошенничеством, мониторинге и раннем предупреждении в реальном времени и других сценариях применения. Анализируя и запрашивая данные в реальном времени, предприятия могут быстро понимать бизнес-условия, оптимизировать решения, предоставлять лучшие услуги и защищать свои интересы.

Коннектор Selena

Коннектор Selena поддерживает следующую информацию:

КатегорияФакты и цифры
Поддерживаемые типыИсходная таблица, таблица измерений, результирующая таблица
Режим работыПотоковый режим и пакетный режим
Формат данныхJSON и CSV
Специальные метрикиНет
Тип APIDatastream и SQL
Поддержка обновления или удаления данных в результирующей таблице?Да

Как использовать?

Dataphin поддерживает источники данных Selena в качестве целей чтения и записи для вычислений в реальном времени. Вы можете создавать мета-таблицы Selena и использовать их для задач вычислений в реальном времени:

Создание мета-таблицы Selena

  1. Перейдите в Dataphin > R & D > Develop > Tables.

  2. Нажмите Create, чтобы выбрать таблицу вычислений в реальном времени.

    Create Selena meta table - 1

    • Тип таблицы: Выберите Metatable.

    • Мета-таблица: Введите имя мета-таблицы. Имя неизменяемо.

    • Источник данных: Выберите источник данных Selena.

    • Каталог: Выберите каталог, в котором вы хотите создать таблицу.

    • Описание: Необязательно.

    Create Selena meta table - 2

  3. После создания мета-таблицы вы можете редактировать мета-таблицу, включая изменение источников данных, исходных таблиц, полей мета-таблицы и настройку параметров мета-таблицы.

    Edit Selena meta table

  4. Отправьте мета-таблицу.

  1. Перейдите в Dataphin > R & D > Develop > Computing Tasks.

  2. Нажмите Create Flink SQL task.

    Create Flink SQL task - Step 2

  3. Отредактируйте код Flink SQL и предварительно скомпилируйте его. Мета-таблица Kafka используется как входная таблица, а мета-таблица Selena как выходная таблица.

    Create Flink SQL task - Step 3 - 1Create Flink SQL task - Step 3 - 2

  4. После успешной предварительной компиляции вы можете отладить и отправить код.

  5. Тестирование в среде разработки может выполняться путем печати журналов и записи тестовых таблиц. Тестовые таблицы можно установить в Meta Tables > Properties > debugging test configurations.

    Create Flink SQL task - Step 5 - 1 Create Flink SQL task - Step 5 - 2

  6. После нормальной работы задачи в среде разработки вы можете опубликовать задачу и используемую мета-таблицу в производственную среду.

    Create Flink SQL task - Step 6

  7. Запустите задачу в производственной среде для записи данных из Kafka в Selena в реальном времени. Вы можете просматривать статус и журналы каждой метрики в анализе выполнения, чтобы узнать о статусе выполнения задачи, или настроить мониторинговые оповещения для задачи.

    Create Flink SQL task - Step 7 - 1 Create Flink SQL task - Step 7 - 2

Хранилище данных или витрина данных

Предварительные условия

  • Версия Selena 3.0.6 или более поздняя.

  • Dataphin установлен и версия Dataphin 3.12 или более поздняя.

  • Должен быть включен сбор статистики. После установки Selena сбор включен по умолчанию. Для получения дополнительной информации см. Gather statistics for CBO.

  • Поддерживается внутренний catalog Selena (default catalog), внешний catalog не поддерживается.

Конфигурация подключения

Настройки хранилища метаданных

Dataphin может представлять и отображать информацию на основе метаданных, включая информацию об использовании таблиц и изменениях метаданных. Вы можете использовать Selena для обработки и вычисления метаданных. Поэтому вам необходимо инициализировать вычислительный движок метаданных (хранилище метаданных) перед его использованием. Процедура выглядит следующим образом:

  1. Используйте учетную запись администратора для входа в арендатор хранилища метаданных Dataphin

  2. Перейдите в Administration > System > Metadata Warehouse Configuration

    a. Нажмите Start

    b. Выберите Selena

    c. Настройте параметры. После прохождения тестового подключения нажмите next.

    d. Завершите инициализацию мета-хранилища

    Metadata warehouse settings

Параметры описаны следующим образом:

  • JDBC URL: Строка подключения JDBC, которая разделена на две части:

    • Часть I: Формат jdbc:mysql://<Host>:<Port>/. Host — это IP-адрес хоста FE в кластере Selena. Port — это порт запросов FE. Значение по умолчанию: 9030.

    • Часть вторая: формат database? key1 = value1 & key2 = value2, где database — это имя базы данных Selena, используемой для вычисления метаданных, что является обязательным. Параметр после '?' является необязательным.

  • Load URL: Формат fe_ip:http_port;fe_ip:http_port. fe_ip — это хост FE (Front End), а http_port — порт FE.

  • Имя пользователя: Имя пользователя, используемое для подключения к Selena.

    Пользователь должен иметь разрешения на чтение и запись в базе данных, указанной в JDBC URL, и должен иметь разрешения доступа к следующим базам данных и таблицам:

    • Все таблицы в Information Schema

    • statistics.column_statistics

    • statistics.table_statistic_v1

  • Пароль: пароль для подключения к Selena.

  • Мета-проект: Имя проекта, используемого для обработки метаданных в Dataphin. Используется только внутри системы Dataphin. Рекомендуется использовать dataphin_meta в качестве имени проекта.

Создание проекта Selena и начало разработки данных

Чтобы начать разработку данных, выполните следующие шаги:

  1. Настройки вычислений.

  2. Создание вычислительного источника Selena.

  3. Создание проекта.

  4. Создание задачи Selena SQL.

Настройки вычислений

Настройки вычислений устанавливают тип вычислительного движка и адрес кластера арендатора. Подробные шаги следующие:

  1. Войдите в Dataphin как системный администратор или суперадминистратор.

  2. Перейдите в Administration > System > Computation Configuration.

  3. Выберите Selena и нажмите Next.

  4. Введите JDBC URL и проверьте его. Формат JDBC URL: jdbc:mysql://<Host>:<Port>/. Host — это IP-адрес хоста FE в кластере Selena. Port — это порт запросов FE. Значение по умолчанию: 9030.

Вычислительный источник Selena

Вычислительный источник — это концепция Dataphin. Его основная цель — связать и зарегистрировать пространство проекта Dataphin с пространством хранения и вычислений Selena (база данных). Вы должны создать вычислительный источник для каждого проекта. Подробные шаги следующие:

  1. Войдите в Dataphin как системный администратор или суперадминистратор.

  2. Перейдите в Planning > Engine.

  3. Нажмите Add Computing Engine в правом верхнем углу, чтобы создать вычислительный источник.

Подробная информация о конфигурации следующая:

  1. Основная информация

    Create compute engine - 1

    • Тип вычислительного движка: Выберите Selena.

    • Имя вычислительного движка: Рекомендуется использовать то же имя, что и у создаваемого проекта. Для проектов разработки добавьте суффикс _dev.

    • Описание: Необязательно. Введите описание вычислительного источника.

  2. Информация о конфигурации

    Create compute engine - 2

    • JDBC URL: Формат jdbc:mysql://<Host>:<Port>/. Host — это IP-адрес хоста FE в кластере Selena. Port — это порт запросов FE. Значение по умолчанию: 9030.

    • Load URL: Формат fe_ip:http_port;fe_ip:http_port. fe_ip — это хост FE (Front End), а http_port — порт FE.

    • Имя пользователя: Имя пользователя, используемое для подключения к Selena.

    • Пароль: Пароль Selena.

    • Группа ресурсов задач: вы можете указать различные группы ресурсов Selena для задач с разными приоритетами. Когда вы выбираете не указывать группу ресурсов, движок Selena определяет группу ресурсов для выполнения. Когда вы выбираете указать группу ресурсов, задачи с разными приоритетами назначаются указанной группе ресурсов Dataphin. Если группа ресурсов указана в коде SQL-задачи или в материализованной конфигурации логической таблицы, конфигурация группы ресурсов задачи вычислительного источника игнорируется при выполнении задачи.

    Create compute engine - 3

Проект Dataphin

После создания вычислительного источника вы можете привязать его к проекту Dataphin. Проект Dataphin управляет участниками проекта, пространством хранения и вычислений Selena, а также управляет и поддерживает вычислительные задачи.

Чтобы создать проект Dataphin, выполните следующие шаги:

  1. Войдите в Dataphin как системный администратор или суперадминистратор.

  2. Перейдите в Planning > Project Management.

  3. Нажмите Create project в правом верхнем углу, чтобы создать проект.

  4. Введите основную информацию и выберите движок Selena, созданный на предыдущем шаге, из автономного движка.

  5. Нажмите Create.

Selena SQL

После создания проекта вы можете создать задачу Selena SQL для выполнения операций DDL или DML в Selena.

Подробные шаги следующие:

  1. Перейдите в R & D > Develop.

  2. Нажмите '+' в правом верхнем углу, чтобы создать задачу Selena SQL.

    Configure Dataphin project - 1

  3. Введите имя и тип планирования, чтобы создать SQL-задачу.

  4. Введите SQL в редакторе, чтобы начать операции DDL и DML в Selena.

    Configure Dataphin project - 2