TOKENIZE函数使用说明

TOKENIZE


TOKENIZE(input, option)

功能说明

分词函数，如果想检查分词实际效果或者对一段文本进行分词的话，可以使用 tokenize 函数

参数说明

input：要分词的语句
option：此参数是必填项，用于指定分词设置,map('analyzer', 'english')。
- 目前支持的分词类型为
- keyword，不分词，不做大小写，不分词,直接将完整的文本保存到倒排索引中。匹配时必须完全匹配
- english，只识别连续的ascii的字母或者数字，转小写，只有英文字符时性能最优
- chinese，识别中文和英文字符，过滤标点符号，英文转小写
- unicode，识别所有unicode的符号，支持西欧字母转小写和中日韩文字的分词，过滤标点符号，转小写

返回结果

返回值为array<string>

案例


--使用keworkd分词
SELECT TOKENIZE('Lakehouse的倒排索引',map('analyzer', 'keyword')) as toke;
+--------------------+
|        toke        |
+--------------------+
| ["Lakehouse的倒排索引"] |
+--------------------+
SELECT TOKENIZE('Lakehouse的倒排索引',map('analyzer', 'chinese')) as toke;
+--------------------------------+
|              toke              |
+--------------------------------+
| ["lakehouse","的","倒排","索引"] |
+--------------------------------+
--使用unicode分词
SELECT TOKENIZE('Lakehouse的倒排索引',map('analyzer', 'unicode')) as toke;
+--------------------------------+
|              toke              |
+--------------------------------+
| ["lakehouse","的","倒","排","索引"] |
+--------------------------------+
--使用english分词
SELECT TOKENIZE('Lakehouse inverted index',map('analyzer', 'english')) as toke;
+----------------------------------+
|               toke               |
+----------------------------------+
| ["lakehouse","inverted","index"] |
+----------------------------------+

联系我们