2024年05月24日— 0.6 Lakehouse Platform 产品更新发布说明

本次发布(Release 2024.05.24),我们引入了一系列新功能、增强特性以及修复项。请注意,这些更新将分阶段逐步推送至以下区域,更新将在发布日起一周至两周内完成,具体时间依据您所在的区域而定。

  • 阿里云上海区
  • 腾讯云上海区
  • 阿里云新加坡区
  • 腾讯云北京区
  • 亚马逊北京区

新功能特性

【预览】支持创建倒排索引加速检索分析

本次发布新增倒排索引支持。倒排索引对文本进行分词处理,同时保存分词与记录之间映射关系。当用户根据关键词进行文本检索时,查询引擎将通过索引数据快速找到匹配的数据记录,显著加速文本检索性能。

本次发布支持对字符串类型字段创建倒排索引,并提供了一组内建函数用于表达文本匹配条件及规则。

更多信息,请查看倒排索引文档。

数据湖存储Volume新增内部Volume对象类型

在外部Volume基础上,新增表Volume和用户Volume两种内部Volume类型。表Volume和用户Volume由系统预定义默认创建,内部Volume的数据保存在Lakehouse托管存储区域,无需与外部存储服务打通即可快速管理和使用非结构化数据。内部Volume能够简化UDF资源文件管理、数据导入/导出文件临时存储以及开发测试等场景的文件数据管理和使用。

更多信息,请查看Volume文档。

【预览】External Function 支持UDAF和UDTF

External Function先前已经提供了对UDF(即:scalar UDF)的支持,本次升级扩展支持UDFA和UDTF自定义函数。您可以使用Hive UDF API开发UDAF以及UDTF。

文档更新,增加了UDF、UDAF、UDTF的开发样例说明。

更多信息,请查看Java UDF开发指南文档。

外部表:支持DELTA LAKE外部表

新增外部表对象类型,通过外部表无需将数据导入,可直接访问外部存储中的数据。本次发布支持创建和使用DELTA LAKE格式的外部表。创建外部表时,支持使用CONNECTION对象定义外部表的服务连接信息。

更多信息,请查看外部表文档。

【 预览】PIPE管道任务支持Kafka数据实时导入

新增PIPE对象类型,通过PIPE管道可以创建从外部流式数据源持续导入数据到目标表的实时任务。无需第三方ETL工具或引擎,PIPE任务由SQL引擎直接实现流式数据源的读取和写入,减少了不必要的中间暂存、格式转换的计算开销,能够极大提升实时导入环节,提高导入吞吐并降低导入成本。

更多信息,请查看PIPE管道文档。

数据湖更新

服务连接对象支持GCS对象存储

通过STORAGE CONNECTION可以管理对象存储服务的连接及身份认证信息,当前支持阿里云OSS、腾讯云COS基础上,增加对谷歌云GCS对象存储服务的支持。使用STORAGE CONNECTION可实现存储服务连接的权限控制,不同任务和用户可复用已定义的连接对象。

更多信息,请查看CONNECTION文档。

External Schema增加访问HMS管理的GCS数据

External Schema通过映射外部元数据服务下的Schema(或者两层结构下的database),实现对外部Schema下数据对象的外表访问。本次升级,External Schema增加对HMS存储在谷歌云GCS数据的访问能力。

更多信息,请查看外部Schema文档。

实时增量计算

动态表:查看动态表刷新历史

新增SHOW DYNAMIC TABLE REFRESH HISTORY命令,支持查看动态表刷新历史。刷新历史中可观察到每次刷新作业的执行状态、刷新作业运行时长、增量或全量刷新类型、当次刷新任务处理的记录数量(包括写入、删除类型)等信息。通过刷新历史可以实现动态表刷新运行(特别是周期性运行)的监控,根据指标情况调整调度周期或者资源大小以满足业务SLA要求。

文档更新:增加动态表使用最佳实践介绍。

更多信息,请查看动态表文档。

【预览】动态表:支持对使用自定义函数的动态表进行增量处理

动态表的定义,支持使用通过External Function创建的自定义函数(包括UDF、UDAF、UDTF)。在使用了自定义函数定义的动态表执行刷新时,系统自动将进行增量处理优化,进一步扩展了动态表增量处理的适用范围。

预览期间非默认打开,该功能需要通过特定参数启用。

更多信息,请查看动态表中使用UDF文档。

Information Schema更新

Information Schema新增Volume和Connection对象视图

新增数据湖存储VOLUMES视图CONNECTIONS视图,您可以通过查询INFORMATION_SCHEMA下的对应视图获取数据湖存储Volume和外部服务连接Connection对象信息。

更多信息,请查看INFORMATION_SCHEMA文档。

SQL 能力更新

支持使用同义词SYNONYM作为别名访问已有对象

通过创建SYNONYM同义词可以对已有数据对象的位置及名称进行引用和包装,可以简化数据对象的访问或者提升数据对象访问的安全性。

更多信息,请查看同义词文档。

支持TIMESTAMP_NTZ类型

时间数据类型在TIMESTAMP_LTZ类型基础上,增加TIMESTAMP_NTZ类型。TIMESTAMP_NTZ类型即timestamp without time zone,用于存储不包含时区信息的日期和时间值,不考虑时区的变化。相较于其他带有时区的时间戳类型(TIMESTAMP_LTZ),TIMESTAMP_NTZ无需进行时区转换,能够极大简化在多时区环境或跨系统传输数据场景下的时间戳类型数据的处理逻辑。

更多信息,请查看TIMESTAMP_NTZ 类型文档。

【预览】使用IDENTITY设置字段自增属性

在创建表时,支持对使用IDENTITY列属性指定自增长列。

更多信息,请查看IDENTITY自增列文档。

内建函数

本次发布新增以下内建函数:

函数名称说明
READ_KAFKA根据参数配置读取Kafka消息
TO_TIMESTAMP_NTZ将字符串转换为NTZ时间戳
LOCALTIMESTAMP返回当前日期和时间
L2_DISTANCE计算两个向量之间的L2距离
L2_NORM计算向量的L2范数
L2_NORMALIZE对向量进行L2归一化
COSINE_DISTANCE计算两个向量之间的余弦距离
DOT_PRODUCT计算两个向量的点积
MATCH_PHRASE匹配两个字符串中的完整短语
MATCH_PHRASE_PREFIX匹配两个字符串中的完整短语并忽略前缀
MATCH_REGEXP匹配字符串中的正则表达式
MATCH_ALL匹配字符串中所有出现的子字符串
MATCH_ANY匹配字符串中至少出现一次的子字符串
TOKENIZE分词函数

生态&开发接口

Java SDK支持timestamp_ntz

Java SDK支持timestamp_ntz类型,在数据同步等场景可以使用timestamp_ntz类型与源数据库的无时区类型进行映射,简化时区处理工作。

缺陷修正

  • 动态表:动态表刷新提交时增加上次读取最新位置的检查,避免并发刷新时数据重复。
  • Information_Schema:修复TABLES视图中filesize字段等于-1的异常取值。

行为变更

STRING/JSON/BINARY类型增加最大写入长度约束限制

数据表的STRING、JSON、BINARY字段最大写入长度限制为16MB。批量、实时导入时对字段进行长度校验。

联系我们
预约咨询
微信咨询
电话咨询