Перейти к основному содержимому
Версия: 2.0.x

tokenize

Разделяет и разбирает текст на токены на основе указанного токенизатора.

Синтаксис

ARRRY<VARCHAR> tokenize(VARCHAR tokenizer_name, VARCHAR content);

Параметры

  • tokenizer_name: Используемый токенизатор. Допустимые значения: english, standard и chinese.

  • content: Текст для токенизации. Может быть константной строкой или именем столбца. Если указан столбец, он должен быть типа STRING или VARCHAR.

Возвращаемое значение

Возвращает массив VARCHAR.

Примеры

MYSQL > SELECT tokenize('english', 'Today is saturday');
+------------------------------------------+
| tokenize('english', 'Today is saturday') |
+------------------------------------------+
| ["today","is","saturday"] |
+------------------------------------------+

keyword

TOKENIZE