迁移指南

本章收录将现有数据系统迁移到 ClickZetta Lakehouse 的实战指南，覆盖 Spark/PySpark、Snowflake、SQL 语法等主流迁移路径。

迁移路径总览

已有 PySpark 代码，想直接迁移

用 ZettaPark DataFrame API。90% 的代码可以直接复用，改动集中在 4 处（导入路径、Session 创建、

.collect()

.collect()

、文件路径）。参考 PySpark → ZettaPark 迁移实战，有完整的 before/after 代码对照和 4 处迁移注意事项。

已有 RDD 代码（Spark 1.x 遗留项目），想迁移到 Lakehouse

参考 RDD → ZettaPark 迁移实战。核心变化是从命令式（

map/reduceByKey/aggregateByKey

map/reduceByKey/aggregateByKey

）到声明式（

group_by/agg/F.avg()

group_by/agg/F.avg()

），代码量减少，执行效率提升。

aggregateByKey

aggregateByKey

替换为

F.avg()

F.avg()

是代码量减少最多的地方。

从零开始，想在 Lakehouse 上建 Medallion 架构

参考 Medallion 三层数仓从零构建。文档覆盖 Bronze 原始摄取、Silver 清洗去重、Gold 维度建模（含 surrogate key 生成），以及 22 项自动化验证的完整实现。

只迁移 SQL，不动计算层

参考 Spark SQL 语法迁移指南和数据类型兼容性参考。

生产 Spark 任务，要求最小停机

参考 Spark 任务平滑迁移实战指南，覆盖双写验证、灰度切流等生产迁移策略。