2023年10月25日— 0.3 Lakehouse Platform 产品更新发布说明

概述

本次更新(Release 2023.10.25)为云器Lakehouse用户带来了一系列新功能、特性增强以及安全性能提升。更新将分阶段逐步推送至以下区域:

  • 阿里云上海区
  • 腾讯云上海区
  • 阿里云新加坡区

注意:根据您的地域位置,您的产品版本可能会在发布日期后的一周至两周内完成更新。

新功能及特性增强

流式处理任务

增量物化视图(公测)

我们引入了增量物化视图功能,该功能允许物化视图根据Base表的数据变化进行增量刷新。这一改进显著降低了物化视图刷新所需的资源消耗,同时保持了数据的实时处理能力。结合数据摄取服务的实时数据写入功能,您可以快速搭建起一套高效的实时数据处理流程。

Table Stream变化数据捕获(公测)

新增Table Stream功能,它能够捕获并记录表对象的变更数据。基于您指定的现有表,Table Stream利用Lakehouse Table的多版本机制和增量识别能力,通过查询方式获取源表的变更记录。当前版本主要支持捕获源表的Append操作记录。

数据导入&导出

实时Upsert写入API

数据实时加载服务新增实时Upsert写入API,支持将数据库的CDC(变更数据捕获)实时写入Lakehouse表。通过Flink Connector、SDK等工具,用户可以实现数据库CDC数据的实时更新写入,提高数据处理的时效性。

数据湖管理及分析

云器Lakehouse 现支持用户访问和管理云厂商的对象存储数据。借助Lakehouse SQL 引擎或AI、大语言模型(LLM),用户可以在多种场景下进行分析,例如空间地理信息数据分析、图片解析和特殊格式文件处理等。同时,用户可以利用云器Lakehouse 的权限体系对云上对象存储数据进行访问控制。具体功能包括:

  • STORAGE连接类型:新增STORAGE连接类型,用于存储访问对象存储所需的身份认证和连接信息。支持使用Access Key Pair和Role两种认证方式访问对象存储。
  • 数据湖Volume对象:完善了数据湖Volume对象,实现了元数据本地化,增强了对数据湖数据的管理与治理能力。
  • get_presigned_url函数:新增get_presigned_url函数,用于为对象存储中的文件生成带临时Token的访问链接。
  • PUT/GET命令实现:实现了PUT和GET命令,使用户可以通过CLI、JDBC、SDK等工具实现本地与Volume之间的数据上传与下载。

安全管理

Time Travel查询(公测)

Time Travel查询功能允许用户在定义时间段内的任何时间点访问历史数据,包括已更改或删除的数据。这一功能对于数据恢复和审计等场景具有重要价值。

存储加密

云器Lakehouse现支持在工作空间级别对存储数据进行加密。平台侧提供托管秘钥的数据加密能力,在创建工作空间时,用户可以选择是否对空间内数据进行加密,默认关闭加密选项,用户可根据自身需求选择开启。

SQL 能力更新

数据类型

  • varchar和char类型现在支持默认长度,无需指定具体长度。
  • 新增对interval ..week的支持。
  • interval格式扩展,现在可以将时间单位写入到字符串中,例如:interval '365 day'。
  • 支持使用类型转化类型转化

新增SQL函数

生态工具

  • JDBC客户端支持PUT / GET命令:JDBC 客户端更新支持 PUT / GET 命令支持数据到 Volume 对象的上传和下载。
  • 【Preview】SQL语法转换工具:新增 DorisDB SQL 与云器 Lakehouse SQL 语法转换工具,实现 DorisDB 系产品SQL 作业到云器 Lakehouse的快速迁移。
  • JDBC支持使用HTTP协议连接Lakehouse服务

平台优化

  • Lakehouse平台控制服务和计算服务支持在线热升级,避免版本升级影响服务连续性
  • 优化Compaction并发控制提升Compaction效率

行为变更

  • Varchar数据类型在不指定最大长度时,默认最大长度从 65535 调整为2147483647

缺陷修复

  • SQL:修复常量列使用别名做GROUP BY字段时无法识别的问题。

联系我们
预约咨询
微信咨询
电话咨询