TOKENIZE

TOKENIZE(input, option)

功能说明

分词函数,如果想检查分词实际效果或者对一段文本进行分词的话,可以使用 tokenize 函数

参数说明

  • input:要分词的语句

  • option:此参数是必填项,用于指定分词设置,map('analyzer', 'english')

    •   目前支持的分词类型为
    • keyword,不分词,不做大小写,不分词,直接将完整的文本保存到倒排索引中。匹配时必须完全匹配
    • english,只识别连续的ascii的字母或者数字,转小写,只有英文字符时性能最优
    • chinese,识别中文和英文字符,过滤标点符号,英文转小写
    • unicode,识别所有unicode的符号,支持西欧字母转小写和中日韩文字的分词,过滤标点符号,转小写

返回结果

返回值为array<string>

案例

--使用keworkd分词
SELECT TOKENIZE('Lakehouse的倒排索引',map('analyzer', 'keyword')) as toke;
+--------------------+
|        toke        |
+--------------------+
| ["Lakehouse的倒排索引"] |
+--------------------+
SELECT TOKENIZE('Lakehouse的倒排索引',map('analyzer', 'chinese')) as toke;
+--------------------------------+
|              toke              |
+--------------------------------+
| ["lakehouse","的","倒排","索引"] |
+--------------------------------+
--使用unicode分词
SELECT TOKENIZE('Lakehouse的倒排索引',map('analyzer', 'unicode')) as toke;
+--------------------------------+
|              toke              |
+--------------------------------+
| ["lakehouse","的","倒","排","索引"] |
+--------------------------------+
--使用english分词
SELECT TOKENIZE('Lakehouse inverted index',map('analyzer', 'english')) as toke;
+----------------------------------+
|               toke               |
+----------------------------------+
| ["lakehouse","inverted","index"] |
+----------------------------------+

联系我们
预约咨询
微信咨询
电话咨询