迁移指南

本章收录将现有数据系统迁移到 ClickZetta Lakehouse 的实战指南,覆盖 Spark/PySpark、Snowflake、SQL 语法等主流迁移路径。


迁移路径总览

来源系统推荐路径文档
Databricks / PySparkZettaPark DataFrame API 替换PySpark → ZettaPark 迁移实战
PySpark RDD(遗留代码)RDD → 声明式 DataFrame/SQLRDD → ZettaPark 迁移实战
Spark SQLSQL 语法对照迁移Spark SQL 语法迁移指南
Spark 数据工程项目架构迁移最佳实践Spark 数据工程迁移最佳实践
Spark 任务(生产)平滑迁移,最小改动Spark 任务平滑迁移实战指南
SnowflakeETL Pipeline 迁移Snowflake 实时 ETL 迁移
从零构建 MedallionBronze → Silver → Gold 建模Medallion 三层数仓从零构建

选择迁移路径

已有 PySpark 代码,想直接迁移

用 ZettaPark DataFrame API。90% 的代码可以直接复用,改动集中在 4 处(导入路径、Session 创建、

.collect()
.collect()
、文件路径)。参考 PySpark → ZettaPark 迁移实战,有完整的 before/after 代码对照和 4 处迁移注意事项。

已有 RDD 代码(Spark 1.x 遗留项目),想迁移到 Lakehouse

参考 RDD → ZettaPark 迁移实战。核心变化是从命令式(

map/reduceByKey/aggregateByKey
map/reduceByKey/aggregateByKey
)到声明式(
group_by/agg/F.avg()
group_by/agg/F.avg()
),代码量减少,执行效率提升。
aggregateByKey
aggregateByKey
替换为
F.avg()
F.avg()
是代码量减少最多的地方。

从零开始,想在 Lakehouse 上建 Medallion 架构

参考 Medallion 三层数仓从零构建。文档覆盖 Bronze 原始摄取、Silver 清洗去重、Gold 维度建模(含 surrogate key 生成),以及 22 项自动化验证的完整实现。

只迁移 SQL,不动计算层

参考 Spark SQL 语法迁移指南数据类型兼容性参考

生产 Spark 任务,要求最小停机

参考 Spark 任务平滑迁移实战指南,覆盖双写验证、灰度切流等生产迁移策略。


相关文档

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询