2025年04月22日 — 1.1 Lakehouse Platform 产品更新发布说明

本次发布(Release 2025.04.22),我们引入了一系列新功能、增强特性以及修复项。这些更新将分阶段逐步推送至以下区域,预计在发布日起一周至两周内完成。具体时间依据您所在的区域而定。

国内区域

  • 阿里云(上海)
  • 腾讯云(上海/北京/广州)
  • 亚马逊云(北京)

国际区域

  • 阿里云(新加坡)
  • AWS(新加坡)

新功能特性

联邦查询增强

  • 【预览发布】ORC格式支持:External Catalog/External Schema新增对HMS的ORC文件格式表的读写能力

数据导入导出优化

导入命令COPY INTO <table>

  • 换行符智能识别:同时支持 \r\n\n 格式
  • on_error=abort|continue 策略:
    • continue 模式:跳过压缩格式错误继续执行
    • abort 模式:遇错立即终止
    • 执行后可展示导入文件列表

导出命令COPY INTO <location>

  • writebom=true 参数:导出 CSV 的时候带上 BOM 头,解决 Excel 打开时的中文乱码问题,提高跨平台兼容性
  • overwrite=true 参数:清空目标文件夹后导入(含子目录)

Pipe功能增强

  • Pipe 文件持续导入:支持通过 on_error=continue 参数忽略错误(跳过压缩格式错误继续执行)继续执行

SQL功能

  • INTERVAL类型扩展:允许 `INTERVAL expr unit` 中的expr写表达式。如interval 1+2 year
  • 元数据展示DESC/SHOW 命令新增显示share类型的schema信息
  • 数据采样: 新增 TABLESAMPLE 采样语法支持高效数据抽样分析
  • 向量检索:支持 ef 参数,执行查询前配置ef 参数:set cz.vector.index.search.ef=64;
  • 倒排索引:创建倒排索引时,支持 'mode' = 'max_word' 参数,以支持更细粒度分词模式: properties ('analyzer' = 'chinese', 'mode' = 'max_word');

函数

内建函数

  • GET_JSON_OBJECT性能提升:优化了GET_JSON_OBJECT实现提升了解析JSON效率

自定义SQL函数

SQL 函数增强:支持创建 RETURNS TABLE 类型的用户定义SQL函数

UDF

External Function支持通过VOLUME地址引用资源文件

  • User Volume 格式地址:volume:user://~/upper.jar
    • user 表示使用 User Volume 协议。
    • ~ 表示当前用户,为固定值。
    • upper.jar 表示目标文件名。
  • Table Volume 格式地址volume:table://table_name/upper.jar
    • table 表示使用 Table Volume 协议。
    • table_name 表示表名,需根据实际情况填写。
    • upper.jar 表示目标文件名。
  • Volume 格式地址volume://volume_name/upper.jar
    • volume_name 创建的vollume名称
    • upper.jar 表示目标文件名。

Volume

  • 预览发布】新增内部命名Volume对象:命名 Volume 是用户自定义的存储位置,主要用于在将数据导入表中之前暂存数据文件。相较于自动创建的用户级(User Volume)和表级(Table volume),Named Volume需由用户显式创建,并具备更灵活的配置选项,能够更好地满足团队协作以及复杂数据加载场景的需求。此外,内部 Volume 存储于云器Lakehouse管理的内部存储空间内,无需额外配置云存储,为用户提供了更为便捷、高效的存储解决方案。

缓存

  • Preload Cache缓存状态查询:先前仅支持虚拟集群运行状态时通过SHOW VCLUSTER vcname PRELOAD CACHED STATUS 查看缓存占用情况,本次支持在虚拟集群暂停状态下通过该命令查看缓存状态并提示集群运行状态。

INFORMATION SCHEMA

  • Information Schema 新增 OBJECT_PRIVILEGES 视图,可查询系统内所有的数据对象权限授予情况:
    • 能够直接查询指定用户(user)所被授予的所有权限,包含通过角色间接获得的权限;
    • 能够直接查询指定对象(如table、view等)的权限被授予了哪些用户,包含通过角色间接授予的用户。
    • 暂不支持查询功能授权情况;
    • 视图内的授权数据与实时数据存在最多15分钟的延迟。

SDK

Python SDK

Python SDK增强:Python SDK支持SQLAlchemy 2接口

BUG修复

  • Python SDK
    • 修复 executemany 方法中 hints 参数失效问题
    • 修复Bulkload SDK写入分区表报错问题
    • 修复Python SDK执行 optimize 语法报错问题

行为变更

  • External Function授权简化:从需同时授予 USE FUNCTION +VOLUME 使用权限,改为仅需 USE FUNCTION权限
  • PIPE功能:原来只有RUNNING和PAUSED状态,新增 failed 状态,便于监控系统捕捉异常,可以设置警报机制对 FAILED 状态进行通知。可通过 DESC <pipe_name> 查看。

联系我们
预约咨询
微信咨询
电话咨询