2024年11月12日— 0.9 Lakehouse Platform 产品更新发布说明

本次发布(Release 2024.11.12),我们引入了一系列新功能、增强特性以及修复项。这些更新将分阶段逐步推送至以下区域,预计在发布日起一周至两周内完成。具体时间依据您所在的区域而定。

  • 阿里云上海区
  • 腾讯云上海区
  • 腾讯云北京区
  • 腾讯云广州区
  • 亚马逊北京区
  • 国际站-阿里云-新加坡区
  • 国际站-AWS-新加坡区

数据湖易用性增强

  • 自动Schema探查:支持对Volume存储中可结构化的文件格式(如csv、parquet、orc文件)自动探查schema,无需预先了解列名和数据类型信息。

  • 联邦查询功能拓展

    • 新增对Databricks Unity Catalog的联邦查询支持
    • hive联邦查询:当hive表中是iceberg格式时,支持iceberg格式读取

智能化

  • Auto Index:自动推荐cluster key和sort key,推荐的列可以用来做sort key,挑选的是经常出现在过滤语句中的列。如果将这些列设置为表的sort key,可以加快query的执行速度。

增量计算

  • 动态表支持DML命令:支持使用DML命令直接进行数据订正。使用DML修改数据后,下一次刷新将为全量刷新。目前支持INSERT, DELETE, TRUNCATE,暂不支持MERGE INTO, UPDATE。默认情况下,DML修改DT的内容会报错,防止用户误操作。如需操作,请设置set cz.sql.dt.allow.dml = true;
  • 新增分区动态表:动态分区表通过SESSION_CONFIGS()['dt.arg.xx']进行定义,刷新时会增量刷新。 刷新时必须使用显示指定分区的刷新命令REFRESH DYNAMIC TABLE dt PARTITION partition_spec;。如果参数使用在普通表,虽然lakehouse没有限制语法但是普通表会全量刷新,刷新语法为REFRESH DYNAMIC TABLE dt ;

SQL能力更新

语法支持

  • cte语法中支持insert into写到开头。如下案例
--新增语法insert into insert_dest with data as (select 2)select * from data;--之前的语法with data as (select 3) insert into insert_dest with data2 as (select * from data) select * from ddata2

函数支持

函数名称功能
unnest函数用于将数组中的元素展开为多行

SDK接口

  • JDBC接口新增对vector类型的支持。

行为变更

  • 增量计算动态表:在新版本中,如果用户不是简单地删除列/添加列/修改SELECT定义语句,添加列定义只能是从表一路经由SELECT透传的,不能参与任何会影响其他列的计算时则会增量刷新。如果新增的列参与了计算在Create Or Replace发生后,REFRESH任务会退化为一次全量刷新。

  • Quota约束限制

    • Trial账户限制:单实例下数据对象总数量限制为1000个
  • 数据导入

    • Kafka Pipe调整:将最小间隔从原来的1秒调整为10秒

联系我们
预约咨询
微信咨询
电话咨询