ZettaPark Python SDK

ZettaPark 是云器 Lakehouse 的 Python DataFrame API——你用类 pandas 的语法写数据处理逻辑,ZettaPark 自动把它翻译成 SQL 在 Lakehouse 中分布式执行,无需手写 SQL。

什么时候用 ZettaPark:适合已有 Python/PySpark 数据处理代码、希望迁移到 Lakehouse 的场景,或者偏好用 Python 控制流(循环、条件)动态构建查询的场景。

需求推荐工具
DataFrame 操作、类 pandas/PySpark 风格ZettaPark(本章)
执行固定 SQL、脚本自动化Python Connector
高速批量写入(百万行级)BulkLoad
机器学习特征工程 + 模型训练ZettaPark + Python ML 库

核心机制

ZettaPark 采用延迟执行模型:调用

filter()
filter()
select()
select()
groupBy()
groupBy()
等方法时只构建执行计划,不立即运行。只有调用
collect()
collect()
show()
show()
to_pandas()
to_pandas()
save_as_table()
save_as_table()
时,才把整个计划翻译成一条 SQL 发给 Lakehouse 执行。

以下三步只构建计划,不产生网络请求:

df = session.table("orders") df_filtered = df.filter(F.col("amount") > 100) df_grouped = df_filtered.groupBy("region").agg(F.sum("amount").alias("total"))

调用

collect()
collect()
时触发执行,整个链路翻译为一条 SQL 发给 Lakehouse:

result = df_grouped.collect()

这意味着复杂的多步转换只产生一次网络往返,计算在 Lakehouse 集群上分布式执行,不受本地内存限制。

本章文档

文档内容
快速入门安装、建立会话、第一个 DataFrame
DataFrame API 指南filter / select / join / groupBy / 窗口函数 / 读写表
常用函数参考
functions
functions
模块函数速查
数据工程实战完整 ETL 流程示例
Volume 与文件操作PUT / GET 文件、对象存储集成
消费 Table Stream增量数据处理
创建 Dynamic Table用 Python 定义自动刷新的计算表
特征工程机器学习特征处理
信用评分实战ZettaPark + Python ML 库端到端案例
联系我们
预约咨询
微信咨询
电话咨询
邮件咨询