2025年07月15日 — 1.2 Lakehouse Platform 产品更新发布说明

本次发布(Release 2025.07.15)引入了一系列新功能、增强特性以及修复项。这些更新将分阶段逐步推送至以下区域,预计在发布日起一周至两周内完成。具体时间依据您所在的区域而定。

国内区域

  • 阿里云(上海)
  • 腾讯云(上海/北京/广州)
  • 亚马逊云科技(北京)

国际区域

  • 阿里云(新加坡)
  • AWS(新加坡)

新功能特性

Spark On Lakehouse 产品化【邀测】

  • Volume 文件引用支持:提交 Spark 任务时,可使用 Volume 地址引用程序文件和依赖文件。
  • 存储集成:支持 Spark 读写 Lakehouse 存储,兼容 Lakehouse Catalog 和内表读写。
  • 作业历史集成:Spark 作业在 Studio 作业历史中透出展示。
  • Lakehouse Studio 集成:新增单租户服务、作业监控与管理 API,强化端到端管控能力。

安全与权限增强

  • Kerberos 认证:HDFS 连接支持 Kerberos 认证,提升企业级安全性。请参考 CREATE EXTERNAL CATALOG 案例四。

倒排索引功能优化

  • multi-match 查询:支持多字段 multi-match 查询,包括 fieldscross_fieldsminimum_should_match 等配置。请参考 multi-match 功能
  • 相似度算法参数调整:支持调整 BM25 相似度算法的参数 k1b 值。请参考 倒排索引 BM25 参数调优

生态接入

问题修复

SQL引擎修复

  • IFNULL 函数:修复 select if null 返回值问题。
  • 动态表字段类型:支持创建 Dynamic Table 时手动指定字段类型。
  • 表注释复制:修复了 create table like 不复制源表 comment 注释的问题。

性能优化

  • 元数据性能:在 PIPE (COPY SQL) 场景导入时不收集列统计信息(column stats),以提升 COMMIT 效率。
  • 元数据缓存(Meta Cache):增加了元数据缓存的自适应缓存策略。
  • HDFS 写入:解决写入 HDFS 外表的 Java 客户端兼容性问题。

用户体验改进

  • information_schema:修复了 information_schema.tables 视图中同名表显示多条记录的问题。
  • 作业性能剖析(Job Profile):增强了作业性能剖析信息展示,支持子作业信息透出。

联系我们
预约咨询
微信咨询
电话咨询