ZettaPark Python SDK

ZettaPark 是云器 Lakehouse 的 Python DataFrame API——你用类 pandas 的语法写数据处理逻辑，ZettaPark 自动把它翻译成 SQL 在 Lakehouse 中分布式执行，无需手写 SQL。

什么时候用 ZettaPark：适合已有 Python/PySpark 数据处理代码、希望迁移到 Lakehouse 的场景，或者偏好用 Python 控制流（循环、条件）动态构建查询的场景。

需求	推荐工具
DataFrame 操作、类 pandas/PySpark 风格	ZettaPark（本章）
执行固定 SQL、脚本自动化	Python Connector
高速批量写入（百万行级）	BulkLoad
机器学习特征工程 + 模型训练	ZettaPark + Python ML 库

核心机制

ZettaPark 采用延迟执行模型：调用

filter()

filter()

、

select()

select()

、

groupBy()

groupBy()

等方法时只构建执行计划，不立即运行。只有调用

collect()

collect()

、

show()

show()

、

to_pandas()

to_pandas()

或

save_as_table()

save_as_table()

时，才把整个计划翻译成一条 SQL 发给 Lakehouse 执行。

以下三步只构建计划，不产生网络请求：

df = session.table("orders") df_filtered = df.filter(F.col("amount") > 100) df_grouped = df_filtered.groupBy("region").agg(F.sum("amount").alias("total"))

调用

collect()

collect()

时触发执行，整个链路翻译为一条 SQL 发给 Lakehouse：

result = df_grouped.collect()

这意味着复杂的多步转换只产生一次网络往返，计算在 Lakehouse 集群上分布式执行，不受本地内存限制。

本章文档

文档	内容
快速入门	安装、建立会话、第一个 DataFrame
DataFrame API 指南	filter / select / join / groupBy / 窗口函数 / 读写表
常用函数参考	`functions` functions 模块函数速查
数据工程实战	完整 ETL 流程示例
Volume 与文件操作	PUT / GET 文件、对象存储集成
消费 Table Stream	增量数据处理
创建 Dynamic Table	用 Python 定义自动刷新的计算表
特征工程	机器学习特征处理
信用评分实战	ZettaPark + Python ML 库端到端案例

联系我们