2025年07月15日 — 1.2 Lakehouse Platform 产品更新发布说明
本次发布(Release 2025.07.15)引入了一系列新功能、增强特性以及修复项。这些更新将分阶段逐步推送至以下区域,预计在发布日起一周至两周内完成。具体时间依据您所在的区域而定。
国内区域
- 阿里云(上海)
- 腾讯云(上海/北京/广州)
- 亚马逊云科技(北京)
国际区域
- 阿里云(新加坡)
- AWS(新加坡)
新功能特性
Spark On Lakehouse 产品化【邀测】
- Volume 文件引用支持:提交 Spark 任务时,可使用 Volume 地址引用程序文件和依赖文件。
- 存储集成:支持 Spark 读写 Lakehouse 存储,兼容 Lakehouse Catalog 和内表读写。
- 作业历史集成:Spark 作业在 Studio 作业历史中透出展示。
- Lakehouse Studio 集成:新增单租户服务、作业监控与管理 API,强化端到端管控能力。
安全与权限增强
- Kerberos 认证:HDFS 连接支持 Kerberos 认证,提升企业级安全性。请参考 CREATE EXTERNAL CATALOG 案例四。
倒排索引功能优化
- multi-match 查询:支持多字段 multi-match 查询,包括
fields、cross_fields、minimum_should_match等配置。请参考 multi-match 功能。 - 相似度算法参数调整:支持调整 BM25 相似度算法的参数
k1、b值。请参考 倒排索引 BM25 参数调优。
生态接入
- Lakehouse 新增外部目录 (EXTERNAL CATALOG) 支持,兼容 Iceberg REST 协议,现可直连 Snowflake Open Catalog 等服务。请参考 访问 Snowflake OpenCatalog 的 Iceberg 表。
问题修复
SQL引擎修复
- IFNULL 函数:修复
select if null返回值问题。 - 动态表字段类型:支持创建 Dynamic Table 时手动指定字段类型。
- 表注释复制:修复了
create table like不复制源表comment注释的问题。
性能优化
- 元数据性能:在 PIPE (COPY SQL) 场景导入时不收集列统计信息(column stats),以提升 COMMIT 效率。
- 元数据缓存(Meta Cache):增加了元数据缓存的自适应缓存策略。
- HDFS 写入:解决写入 HDFS 外表的 Java 客户端兼容性问题。
用户体验改进
- information_schema:修复了
information_schema.tables视图中同名表显示多条记录的问题。 - 作业性能剖析(Job Profile):增强了作业性能剖析信息展示,支持子作业信息透出。
联系我们
