迁移指南
本章收录将现有数据系统迁移到 ClickZetta Lakehouse 的实战指南,覆盖 Spark/PySpark、Snowflake、SQL 语法等主流迁移路径。
迁移路径总览
| 来源系统 | 推荐路径 | 文档 |
|---|---|---|
| Databricks / PySpark | ZettaPark DataFrame API 替换 | PySpark → ZettaPark 迁移实战 |
| PySpark RDD(遗留代码) | RDD → 声明式 DataFrame/SQL | RDD → ZettaPark 迁移实战 |
| Spark SQL | SQL 语法对照迁移 | Spark SQL 语法迁移指南 |
| Spark 数据工程项目 | 架构迁移最佳实践 | Spark 数据工程迁移最佳实践 |
| Spark 任务(生产) | 平滑迁移,最小改动 | Spark 任务平滑迁移实战指南 |
| Snowflake | ETL Pipeline 迁移 | Snowflake 实时 ETL 迁移 |
| 从零构建 Medallion | Bronze → Silver → Gold 建模 | Medallion 三层数仓从零构建 |
选择迁移路径
已有 PySpark 代码,想直接迁移
用 ZettaPark DataFrame API。90% 的代码可以直接复用,改动集中在 4 处(导入路径、Session 创建、
.collect()、文件路径)。参考 PySpark → ZettaPark 迁移实战,有完整的 before/after 代码对照和 4 处迁移注意事项。
已有 RDD 代码(Spark 1.x 遗留项目),想迁移到 Lakehouse
参考 RDD → ZettaPark 迁移实战。核心变化是从命令式(
map/reduceByKey/aggregateByKey)到声明式(group_by/agg/F.avg()),代码量减少,执行效率提升。aggregateByKey 替换为 F.avg() 是代码量减少最多的地方。
从零开始,想在 Lakehouse 上建 Medallion 架构
参考 Medallion 三层数仓从零构建。文档覆盖 Bronze 原始摄取、Silver 清洗去重、Gold 维度建模(含 surrogate key 生成),以及 22 项自动化验证的完整实现。
只迁移 SQL,不动计算层
参考 Spark SQL 语法迁移指南 和 数据类型兼容性参考。
生产 Spark 任务,要求最小停机
参考 Spark 任务平滑迁移实战指南,覆盖双写验证、灰度切流等生产迁移策略。
相关文档
- ZettaPark DataFrame API 指南:ZettaPark 完整 API 参考
- 数据类型兼容性参考:MySQL/PostgreSQL/Hive/Spark 类型映射
- Volume 使用指南:迁移后文件存储路径格式(
)vol://schema.vol/path
联系我们
