ZettaPark Python SDK
ZettaPark 是云器 Lakehouse 的 Python DataFrame API——你用类 pandas 的语法写数据处理逻辑,ZettaPark 自动把它翻译成 SQL 在 Lakehouse 中分布式执行,无需手写 SQL。
什么时候用 ZettaPark:适合已有 Python/PySpark 数据处理代码、希望迁移到 Lakehouse 的场景,或者偏好用 Python 控制流(循环、条件)动态构建查询的场景。
| 需求 | 推荐工具 |
|---|---|
| DataFrame 操作、类 pandas/PySpark 风格 | ZettaPark(本章) |
| 执行固定 SQL、脚本自动化 | Python Connector |
| 高速批量写入(百万行级) | BulkLoad |
| 机器学习特征工程 + 模型训练 | ZettaPark + Python ML 库 |
核心机制
ZettaPark 采用延迟执行模型:调用
filter()、select()、groupBy() 等方法时只构建执行计划,不立即运行。只有调用 collect()、show()、to_pandas() 或 save_as_table() 时,才把整个计划翻译成一条 SQL 发给 Lakehouse 执行。
以下三步只构建计划,不产生网络请求:
调用
collect() 时触发执行,整个链路翻译为一条 SQL 发给 Lakehouse:
这意味着复杂的多步转换只产生一次网络往返,计算在 Lakehouse 集群上分布式执行,不受本地内存限制。
本章文档
| 文档 | 内容 |
|---|---|
| 快速入门 | 安装、建立会话、第一个 DataFrame |
| DataFrame API 指南 | filter / select / join / groupBy / 窗口函数 / 读写表 |
| 常用函数参考 | 模块函数速查 |
| 数据工程实战 | 完整 ETL 流程示例 |
| Volume 与文件操作 | PUT / GET 文件、对象存储集成 |
| 消费 Table Stream | 增量数据处理 |
| 创建 Dynamic Table | 用 Python 定义自动刷新的计算表 |
| 特征工程 | 机器学习特征处理 |
| 信用评分实战 | ZettaPark + Python ML 库端到端案例 |
联系我们
