2023年12月25日— 0.4 Lakehouse Platform 产品更新发布说明
概述
本次发布的云器Lakehouse版本(Release 2023.12.25)引入了一系列新功能、性能优化和修复,以及部分行为变更。更新将分阶段逐步推送至以下区域:
- 阿里云上海区
- 腾讯云上海区
- 阿里云新加坡区
- 腾讯云北京区
注意:更新将在发布日起一周至两周内完成,具体时间依据您所在的区域而定。
新功能与优化
性能提升
在多并发场景下,资源调度得到了显著增强,提升了并发查询性能和弹性扩容时的性能稳定性。与Release 2023.10.25版本相比,在SSBFlat 1G数据集上,单资源实例QPS提高了47%,P99查询时延降低了68%。此外,在自动横向弹性扩展(Concurrency Scaling)模式下,多并发查询的P99和QPS性能指标进一步接近按峰值规划固定资源的性能表现,有效降低了资源成本。
- 实时摄取服务(Ingestion Service)
- Upsert实时写入:针对主键约束表,实时摄取服务现在利用主键索引Cache来加速写入效率,并根据数据冷热自动进行内存Cache轮换,以兼顾大表更新写入的经济性。
- 热升级支持:实时摄取服务现支持热升级,增强了实时写入的业务连续性。
实时处理链路
- 增量物化视图:新增“处理时间”语义,支持使用
current_date
和current_timestamp
进行过滤,提供类似流式处理Watermark的迟传数据过滤能力。 - Table Stream:在Append-Only变化记录捕获的基础上,增加了对DELETE/UPDATE操作的变化记录捕获。
虚拟集群管理(Virtual Cluster)
- 状态管理:当集群处于“启动中”、“扩容中”等状态时,新增支持“终止变更”功能,可退回变更前的上一状态。
- Preload Cache:增加了新写入数据的主动Cache能力,提高实时数据cache命中率,降低实时分析查询的抖动。
- 弹性并发:支持分析型集群在弹性扩展时远程读集群内已缓存数据,减少资源弹性扩展时的查询质量波动,提升多并发下的性能稳定性。
作业管理
- 作业历史查询:Show Jobs命令及Web-UI的"作业历史"模块,现在支持查询并返回最近7天内、最大10000行作业历史记录。
- 作业诊断:作业列表和作业诊断页面提供了作业执行过程中包含编译优化、资源等待、实际运行等各阶段的时长分解,并优化了作业Stage内各Operator执行时间占比指标,增强了自助作业诊断的能力。
数据湖(Volume)
- SQL查询VOLUME:现在支持使用SQL直接查询VOLUME文件,包括csv、parquet、orc格式。
- 图片文件展示:在Web-UI SQL编辑器查询结果中,支持将volume对象中包含的图片类型文件的presigned url展示为图片。
自定义函数(External Function)
- UDAF函数支持:现在支持自定义Java/Python UDAF函数。
- 资源文件引用:External Function支持引用Volume内资源文件,简化了开发创建External Function的步骤。
SQL & 内建函数
- ALTER命令增强:支持使用
ALTER TABLE
、ALTER SCHEMA
、ALTER WORKSPACE
命令修改对象的COMMENT内容。 - 尾随逗号支持:增加了对尾随逗号语法风格(Trailing Commas)的支持。现在在CREATE TABLE、SELECT语句指定字段时,允许在最后一个字段或值之后添加逗号,提升了代码管理的友好性。
- NATURE JOIN支持:支持使用NATURE JOIN作为内连接的简化语法,无需声明连接条件,自动根据两个表中同名列进行隐式等值连接。
- UUID函数:新增了UUID函数,用于生成通用唯一标识符。
数据保护
- TimeTravel:支持在工作空间级别设置数据的保留周期。
- 存储加密:支持表级别的存储加密设置。
驱动 & 接口
- JDBC下载接口:JDBC提供了查询结果全量下载接口,支持查询结果导出后的二次消费场景。
- SDK下载:支持通过中央库下载Java/Python SDK。
- Flink Connector:Connector for Flink支持CDC写入时同步Schema变更(Schema evolution)。
Information Schema
- 【Preview】提供智能数据模型优化(AutoMV)的物化视图创建及刷新历史视图
- 【Preview】默认提供工作空间级别的Information_Schema,空间内用户可授权访问
数据共享
- 【Preview】新增数据共享功能,可通过试用SQL创建share对象,对share对象进行授权的方式进行跨账户的数据共享。共享数据的范围和操作受数据提供方权限定义约束,可由数据提供方随时取消或修改授权。被共享数据无需迁移,数据更新实时可见。
生态
- 【Bug Fix】解决Apache Spark通过Catalog SDK访问腾讯云Lakehouse服务出现的COS存储适配问题
- 新增Metabase连接支持
联系我们