2023年10月25日— 0.3 Lakehouse Platform 产品更新发布说明
概述
本次更新(Release 2023.10.25)为云器Lakehouse用户带来了一系列新功能、特性增强以及安全性能提升。更新将分阶段逐步推送至以下区域:
- 阿里云上海区
- 腾讯云上海区
- 阿里云新加坡区
注意:根据您的地域位置,您的产品版本可能会在发布日期后的一周至两周内完成更新。
新功能及特性增强
流式处理任务
增量物化视图(公测)
我们引入了增量物化视图功能,该功能允许物化视图根据Base表的数据变化进行增量刷新。这一改进显著降低了物化视图刷新所需的资源消耗,同时保持了数据的实时处理能力。结合数据摄取服务的实时数据写入功能,您可以快速搭建起一套高效的实时数据处理流程。
Table Stream变化数据捕获(公测)
新增Table Stream功能,它能够捕获并记录表对象的变更数据。基于您指定的现有表,Table Stream利用Lakehouse Table的多版本机制和增量识别能力,通过查询方式获取源表的变更记录。当前版本主要支持捕获源表的Append操作记录。
数据导入&导出
实时Upsert写入API
数据实时加载服务新增实时Upsert写入API,支持将数据库的CDC(变更数据捕获)实时写入Lakehouse表。通过Flink Connector、SDK等工具,用户可以实现数据库CDC数据的实时更新写入,提高数据处理的时效性。
数据湖管理及分析
云器Lakehouse 现支持用户访问和管理云厂商的对象存储数据。借助Lakehouse SQL 引擎或AI、大语言模型(LLM),用户可以在多种场景下进行分析,例如空间地理信息数据分析、图片解析和特殊格式文件处理等。同时,用户可以利用云器Lakehouse 的权限体系对云上对象存储数据进行访问控制。具体功能包括:
- STORAGE连接类型:新增STORAGE连接类型,用于存储访问对象存储所需的身份认证和连接信息。支持使用Access Key Pair和Role两种认证方式访问对象存储。
- 数据湖Volume对象:完善了数据湖Volume对象,实现了元数据本地化,增强了对数据湖数据的管理与治理能力。
- get_presigned_url函数:新增get_presigned_url函数,用于为对象存储中的文件生成带临时Token的访问链接。
- PUT/GET命令实现:实现了PUT和GET命令,使用户可以通过CLI、JDBC、SDK等工具实现本地与Volume之间的数据上传与下载。
安全管理
Time Travel查询(公测)
Time Travel查询功能允许用户在定义时间段内的任何时间点访问历史数据,包括已更改或删除的数据。这一功能对于数据恢复和审计等场景具有重要价值。
存储加密
云器Lakehouse现支持在工作空间级别对存储数据进行加密。平台侧提供托管秘钥的数据加密能力,在创建工作空间时,用户可以选择是否对空间内数据进行加密,默认关闭加密选项,用户可根据自身需求选择开启。
SQL 能力更新
数据类型
- varchar和char类型现在支持默认长度,无需指定具体长度。
- 新增对interval ..week的支持。
- interval格式扩展,现在可以将时间单位写入到字符串中,例如:interval '365 day'。
- 支持使用类型转化类型转化。
新增SQL函数
-
窗口函数:collect_set、first、last
-
复杂类型函数:sort_array
-
高阶函数:array_sort_by_key
-
时间函数:convert_timezone、to_timestamp、extract、timestamp_micros、timestamp_millis、timestamp_seconds、week、yearofweek
-
bitmap函数:sub_bitmap
-
SQL函数增强
- from_json函数支持使用map('parsingTimestampPrecision', 'millisecond')参数识别毫秒时间精度
- date_format格式化支持季度
-
SQL语法
- SQL 语法优化:新增cz.sql.group.by.having.use.alias.first参数变量。用于控制 group by 和 having 语句是否优先使用列的别名,而非使用From 语句中列名,默认为false。设置为true时,group by 和 having 语句优先使用列的别名。
- 支持参数管理,可以设置workspace参数,支持提交SQL时设置临时参数,提交query支持设置 query_tag
生态工具
- JDBC客户端支持PUT / GET命令:JDBC 客户端更新支持 PUT / GET 命令支持数据到 Volume 对象的上传和下载。
- 【Preview】SQL语法转换工具:新增 DorisDB SQL 与云器 Lakehouse SQL 语法转换工具,实现 DorisDB 系产品SQL 作业到云器 Lakehouse的快速迁移。
- JDBC支持使用HTTP协议连接Lakehouse服务
平台优化
- Lakehouse平台控制服务和计算服务支持在线热升级,避免版本升级影响服务连续性
- 优化Compaction并发控制提升Compaction效率
行为变更
- Varchar数据类型在不指定最大长度时,默认最大长度从 65535 调整为2147483647
缺陷修复
- SQL:修复常量列使用别名做GROUP BY字段时无法识别的问题。