2024年07月22日— 0.7 Lakehouse Platform 产品更新发布说明

本次发布（Release 2024.07.22），我们引入了一系列新功能、增强特性以及修复项。请注意，这些更新将分阶段逐步推送至以下区域，更新将在发布日起一周至两周内完成，具体时间依据您所在的区域而定。

阿里云上海区
腾讯云上海区
腾讯云北京区
腾讯云广州区
亚马逊北京区
国际站-阿里云-新加坡区
国际站-AWS-新加坡区

新功能特性

【预览】External Catalog，支持Catalog-Level联邦联邦查询

在External Table,External Schema基础上，云器Lakehouse支持使用External Catalog在Catalog级别映射和镜像外部数据源。本期支持使用External Catalog连通和映射Hive Metastore的多个database，简化云器Lakehouse对Hive Metastore管理数据的查询分析。

【预览】Kafka外表，支持SQL直接读取Kafka

新增面向Kafka服务的外表类型，支持SQL查询Kafka消息数据。

【预览】ClickZetta Connector for Spark，支持Spark读写Lakehouse

提供ClickZetta Connector for Spark插件，借助该插件您可通过已有的Spark集群访问云器Lakehouse数据表，支持读取、写入。

【预览】MySQL通讯协议支持，支持MySQL客户端连接访问Lakehouse

在自定义JDBC驱动的基础上，云器Lakehouse增加了MySQL8兼容的通讯协议支持。您可使用MySQL客户端及驱动连接访问Lakehouse，借助MySQL生态工具扩展分析使用场景。特别地，当客户端工具不支持上传云器Lakehouse的自定义JDBC驱动时，可使用MySQL协议连接访问Lakehouse，例如PowerBI、QuickBI等。

【预览】Logstash ClickZetta Output插件，日志数据实时写入Lakehouse

针对日志收集和检索分析场景，云器Lakehouse提供了Logstash ClickZetta Output插件，通过该插件可以将Logstash收集到的日志数据实时写入Lakehouse数据表中，配合对数据表创建倒排索引，Lakehouse能够实现实时日志的收集、实时索引构建以支持实时文件、日志检索分析需要。

导入导出更新

【预览】自动导入服务（Pipe）新增支持阿里云对象存储文件数据自动实时导入

自动导入服务在支持Kafka数据自动实时导入基础上，增加了对象存储文件数据的实时导入能力。自动导入服务可订阅对象存储的文件变化事件，根据文件变化事件自动触发导入任务，实现了面向对象存储快速变化数据文件的自动增量导入能力。

COPY INTO <Location>支持导出表数据为JSON格式

COPY INTO <location>命令扩展了导出格式，通过FILE_FORMAT = (TYPE = JSON) 参数可导出表数据为JSON格式文件。

联邦查询更新

扩展Catalog Connection连接类型，支持外部Catalog服务连接定义

增加Catalog Connection对象类型，支持创建与外部Catalog服务（如Hive Metastore）的连接定义，在创建External Catalog/External Schema/External Table时可引用Catalog Connection简化定义、提高连接信息的安全性。

外表查询增加MEATADATA 缓存能力

通过External Table/External Schema/External Catalog查询外部表时，云器Lakehouse增加了远程元数据的本地缓存能力以加速外部数据查询性能。

虚拟计算集群更新

【预览】Preload Cache支持仅对分区表的最近分区进行动态Cache

支持对分区表近期分区进行主动Cache的配置，系统自动根据分区的变化淘汰过期分区Cache数据、加载新分区数据。通过该功能特性，能够对有效地利用分析型集群的本地Cache对近期热数据进行缓存加速，适合存量历史数据较多、查询分析时主要关注近期数据的业务场景。

增量计算更新

动态表DDL定义支持用户指定自动刷新作业运行的虚拟计算集群

在CREATE DYNAMIC TABLE的DDL定义中，支持使用REFRESH INTERVAL [interval_time] VCLUSTER <virtual_cluster_name>语法设置自动刷新作业使用的集群名称。

SQL 能力更新

支持SHOW PARTITIONS语法查看分区表分区信息

Lakehouse采用隐式分区方式定义和使用分区表。为了兼容Hive的分区管理的使用习惯、增强基于分区的管理和优化能力，本期提供了SHOW PARTITIONS语法查看分区表分区信息。同时可使用SHOW PARTITIONS EXTENDED语法查看分区扩展信息，包括：分区值、分区记录数、分区数据大小、分区创建时间、分区最后修改时间。通过SHOW PARTITIONS EXTENDED用户可以了解分区数量、大小、修改信息。Lakehouse平台也可以借助元数据中的分区信息在历史数据归档、Preload Cache主动缓存等场景进行细粒度的管理和优化。

SHOW TABLES命令的数据对象类型增加了外表、动态表扩展

SHOW TABLES命令的返回信息扩展了is_external、is_dynamic字段，用于区分是否为外表或动态表。

兼容性扩展：新增MAX_PT函数，支持查看最新分区表最大分区

使用max_pt可返回分区表最大的一级分区的值，对于存量任务使用该函数的作业增强了语法兼容性。

内建函数

本次发布新增以下内建函数：

函数名称	说明
CHARACTER_LENGTH	返回字符串中字符的数量
CHAR_LENGTH	等效于CHARACTER_LENGTH，用于返回字符串中字符的数量。
LENGTHB	返回字符串参数的字节长度。
PERCENTILE_APPROX	用于计算近似百分位数。它返回一个表中指定列值的近似百分位数。
PERCENT_RANK	用于计算百分位排名。它返回一个值在一组值中的相对位置。
FORMAT_STRING	用于格式化字符串。它基于 `printf` 样式的格式字符串生成格式化后的字符串。
REGEXP_EXTRACT_ALL	用于从字符串中提取与正则表达式匹配的所有子串。
STR_TO_DATE_MYSQL	用于将字符串转换为日期，其实现与 MySQL 中的 `STR_TO_DATE` 函数兼容。
MAX_PT	用于获取分区表中最大分区的值。
IS_IP_ADDRESS_IN_RANGE	用于判断一个 IP 地址是否包含在某个网络范围内。

生态&开发接口

ClickZetta Connector for Flink更新

ClickZetta Connector for Flink插件增加对Flink v1.17/v1.18版本的支持。

ClickZetta Catalog SDK更新

Flink支持使用ClickZetta Catalog SDK支持读取Lakehouse数据表。

DBT-CLICKZETTA ADAPTER更新

dbt-clickzetta adapter新增对云器Lakehouse 动态表增量模型的支持，可使用dbt开发自动刷新的动态表模型。

缺陷修正

作业历史&作业详情：修正部分作业(如desc,show等命令)在作业历史（Job History）列表中不能显示作业耗时信息的问题

行为变更

虚拟集群管理（Virtual Cluster）Preload Cache：设置了Preload Cache的集群在启动时，原有行为是默认对配置Preload的表进行主动全量Cache。当前行为变更为：启动集群后，对配置Preload的表进行增量Cache。即：默认仅对新变化的数据做主动Cache。
动态表自动刷新：在CREATE DYNAMIC TABLE的DDL定义中可设置系统自动刷新的时间间隔以及刷新作业运行的计算资源。原有行为是通过动态表在PROPERTIES 中添加refresh_vc参数进行设置，例如设置PROPERTIES('refresh_vc'='vcluster_name)后，动态表自动刷新任务将使用vcluster_name集群执行任务。当前行为变更为：使用REFRESH INTERVAL [interval_time] VCLUSTER <virtual_cluster_name>语法设置自动刷新作业使用的集群名称。原有的PROPERTIES参数行为将继续保留和兼容。

联系我们