2024年11月12日— 0.9 Lakehouse Platform 产品更新发布说明
本次发布(Release 2024.11.12),我们引入了一系列新功能、增强特性以及修复项。这些更新将分阶段逐步推送至以下区域,预计在发布日起一周至两周内完成。具体时间依据您所在的区域而定。
- 阿里云上海区
- 腾讯云上海区
- 腾讯云北京区
- 腾讯云广州区
- 亚马逊北京区
- 国际站-阿里云-新加坡区
- 国际站-AWS-新加坡区
数据湖易用性增强
-
自动Schema探查:支持对Volume存储中可结构化的文件格式(如csv、parquet、orc文件)自动探查schema,无需预先了解列名和数据类型信息。
-
联邦查询功能拓展:
- 新增对Databricks Unity Catalog的联邦查询支持
- hive联邦查询:当hive表中是iceberg格式时,支持iceberg格式读取
智能化
- Auto Index:自动推荐cluster key和sort key,推荐的列可以用来做sort key,挑选的是经常出现在过滤语句中的列。如果将这些列设置为表的sort key,可以加快query的执行速度。
增量计算
- 动态表支持DML命令:支持使用DML命令直接进行数据订正。使用DML修改数据后,下一次刷新将为全量刷新。目前支持INSERT, DELETE, TRUNCATE,暂不支持MERGE INTO, UPDATE。默认情况下,DML修改DT的内容会报错,防止用户误操作。如需操作,请设置
set cz.sql.dt.allow.dml = true;
。 - 新增分区动态表:动态分区表通过
SESSION_CONFIGS()['dt.arg.xx']
进行定义,刷新时会增量刷新。 刷新时必须使用显示指定分区的刷新命令REFRESH DYNAMIC TABLE dt PARTITION partition_spec;
。如果参数使用在普通表,虽然lakehouse没有限制语法但是普通表会全量刷新,刷新语法为REFRESH DYNAMIC TABLE dt ;
SQL能力更新
语法支持
- cte语法中支持insert into写到开头。如下案例
函数支持
函数名称 | 功能 |
---|---|
unnest | 函数用于将数组中的元素展开为多行 |
SDK接口
- JDBC接口新增对vector类型的支持。
行为变更
-
增量计算动态表:在新版本中,如果用户不是简单地删除列/添加列/修改SELECT定义语句,添加列定义只能是从表一路经由SELECT透传的,不能参与任何会影响其他列的计算时则会增量刷新。如果新增的列参与了计算在Create Or Replace发生后,REFRESH任务会退化为一次全量刷新。
-
Quota约束限制:
- Trial账户限制:单实例下数据对象总数量限制为1000个
-
数据导入:
- Kafka Pipe调整:将最小间隔从原来的1秒调整为10秒
联系我们