2023年12月25日— 0.4 Lakehouse Platform 产品更新发布说明

概述

本次发布的云器Lakehouse版本(Release 2023.12.25)引入了一系列新功能、性能优化和修复,以及部分行为变更。更新将分阶段逐步推送至以下区域:

  • 阿里云上海区
  • 腾讯云上海区
  • 阿里云新加坡区
  • 腾讯云北京区

注意:更新将在发布日起一周至两周内完成,具体时间依据您所在的区域而定。

新功能与优化

性能提升

在多并发场景下,资源调度得到了显著增强,提升了并发查询性能和弹性扩容时的性能稳定性。与Release 2023.10.25版本相比,在SSBFlat 1G数据集上,单资源实例QPS提高了47%,P99查询时延降低了68%。此外,在自动横向弹性扩展(Concurrency Scaling)模式下,多并发查询的P99和QPS性能指标进一步接近按峰值规划固定资源的性能表现,有效降低了资源成本。

  • 实时摄取服务(Ingestion Service)
  • Upsert实时写入:针对主键约束表,实时摄取服务现在利用主键索引Cache来加速写入效率,并根据数据冷热自动进行内存Cache轮换,以兼顾大表更新写入的经济性。
  • 热升级支持:实时摄取服务现支持热升级,增强了实时写入的业务连续性。

实时处理链路

  • 增量物化视图:新增“处理时间”语义,支持使用current_datecurrent_timestamp进行过滤,提供类似流式处理Watermark的迟传数据过滤能力。
  • Table Stream:在Append-Only变化记录捕获的基础上,增加了对DELETE/UPDATE操作的变化记录捕获。

虚拟集群管理(Virtual Cluster)

  • 状态管理:当集群处于“启动中”、“扩容中”等状态时,新增支持“终止变更”功能,可退回变更前的上一状态。
  • Preload Cache:增加了新写入数据的主动Cache能力,提高实时数据cache命中率,降低实时分析查询的抖动。
  • 弹性并发:支持分析型集群在弹性扩展时远程读集群内已缓存数据,减少资源弹性扩展时的查询质量波动,提升多并发下的性能稳定性。

作业管理

  • 作业历史查询:Show Jobs命令及Web-UI的"作业历史"模块,现在支持查询并返回最近7天内、最大10000行作业历史记录。
  • 作业诊断:作业列表和作业诊断页面提供了作业执行过程中包含编译优化、资源等待、实际运行等各阶段的时长分解,并优化了作业Stage内各Operator执行时间占比指标,增强了自助作业诊断的能力。

数据湖(Volume)

  • SQL查询VOLUME:现在支持使用SQL直接查询VOLUME文件,包括csv、parquet、orc格式。
  • 图片文件展示:在Web-UI SQL编辑器查询结果中,支持将volume对象中包含的图片类型文件的presigned url展示为图片。

自定义函数(External Function)

  • UDAF函数支持:现在支持自定义Java/Python UDAF函数。
  • 资源文件引用:External Function支持引用Volume内资源文件,简化了开发创建External Function的步骤。

SQL & 内建函数

  • ALTER命令增强:支持使用ALTER TABLEALTER SCHEMAALTER WORKSPACE命令修改对象的COMMENT内容。
  • 尾随逗号支持:增加了对尾随逗号语法风格(Trailing Commas)的支持。现在在CREATE TABLE、SELECT语句指定字段时,允许在最后一个字段或值之后添加逗号,提升了代码管理的友好性。
  • NATURE JOIN支持:支持使用NATURE JOIN作为内连接的简化语法,无需声明连接条件,自动根据两个表中同名列进行隐式等值连接。
  • UUID函数:新增了UUID函数,用于生成通用唯一标识符。

数据保护

  • TimeTravel:支持在工作空间级别设置数据的保留周期。
  • 存储加密:支持表级别的存储加密设置。

驱动 & 接口

  • JDBC下载接口:JDBC提供了查询结果全量下载接口,支持查询结果导出后的二次消费场景。
  • SDK下载:支持通过中央库下载Java/Python SDK。
  • Flink Connector:Connector for Flink支持CDC写入时同步Schema变更(Schema evolution)。

Information Schema

  • 【Preview】提供智能数据模型优化(AutoMV)的物化视图创建及刷新历史视图
  • 【Preview】默认提供工作空间级别的Information_Schema,空间内用户可授权访问

数据共享

  • 【Preview】新增数据共享功能,可通过试用SQL创建share对象,对share对象进行授权的方式进行跨账户的数据共享。共享数据的范围和操作受数据提供方权限定义约束,可由数据提供方随时取消或修改授权。被共享数据无需迁移,数据更新实时可见。

生态

  • 【Bug Fix】解决Apache Spark通过Catalog SDK访问腾讯云Lakehouse服务出现的COS存储适配问题
  • 新增Metabase连接支持

联系我们
预约咨询
微信咨询
电话咨询