数据加工

Lakehouse 的数据加工能力覆盖四类模式:自动增量刷新管道(Dynamic Table)、定期批量 ETL(Studio 任务调度)、数据变更捕获(Table Stream)和查询加速(物化视图)。按加工时效和触发方式选择。


我要搭建数据管道(ODS → DWD → ADS)

推荐:Dynamic Table(动态表),定义一条 SQL,系统自动增量计算并维护结果,无需手动调度。

场景方案参考文档
多层加工链路,自动增量刷新Dynamic Table动态表介绍 · 创建动态表
实时 ETL 完整示例Dynamic Table 教程使用动态表开展实时 ETL
近实时增量处理管道Dynamic Table + Table Stream开发动态表实现近实时增量处理
CDC 数据处理(数据库变更实时加工)多表实时同步 + Dynamic TableCDC 及数据处理完整示例
实现 SCD(缓慢变化维)Table Stream + 任务SCD 实现指南

我要做定期批量 ETL(T+1 / 按小时调度)

推荐:Studio SQL 任务 + 调度,在 Studio 中编写 SQL,配置 Cron 调度,可视化监控运行状态。

场景方案参考文档
SQL 转换任务 + 周期调度Studio SQL 任务任务开发与调度 · 快速配置 ETL 流程
多任务编排(有依赖关系)组合任务 / 任务组组合任务 · 任务组
需要 Python 处理(pandas / 自定义逻辑)Studio Python 任务Python 任务开发
使用 dbt 做数据建模dbt + Lakehouse使用 dbt 在 Lakehouse 进行增量开发

我要感知表的数据变化(CDC / 增量驱动)

推荐:Table Stream,捕获表的 INSERT / UPDATE / DELETE 变更,驱动下游增量处理。

场景方案参考文档
捕获表变更,驱动下游加工Table StreamTable Stream 介绍 · 创建 Table Stream
Table Stream 最佳实践Table Stream 最佳实践

我要加速查询(预计算 / 缓存结果)

推荐:物化视图,预计算并存储查询结果,支持查询改写自动加速。

场景方案参考文档
预计算高频复杂查询物化视图物化视图介绍 · 创建物化视图
查询改写(透明加速)物化视图 + 查询改写查询改写功能

我要做 SQL 数据转换(清洗 / 聚合 / 关联)

场景参考文档
SQL 转换基础语法SQL 数据转换基础
窗口函数(同比 / 环比 / 排名)通过窗口函数进行数据转换
CTE 复杂查询通过 CTE 进行数据转换
嵌套数据类型(Array / Map / Struct)嵌套数据类型转换
JSON 数据处理复杂业务场景 JSON 处理指南
实用技巧汇总SQL 转换技巧
漏斗分析与用户行为漏斗分析指南
会话分析(Sessionization)会话分析指南
留存与同期群分析留存与同期群分析指南
营销归因分析归因分析指南
层级查询(组织架构/BOM)层级查询 Workaround
数据去重处理数据去重处理指南
数据透视(行转列/列转行)数据透视与行列转换指南
累计计算与运行总计累计计算与运行总计指南

我要保证数据质量

推荐:Studio 数据质量规则(DQC),配置校验规则,数据加工前自动拦截异常数据。

场景方案参考文档
配置数据质量检查规则Studio DQC快速配置数据质量规则
数据质量完整指南DQC 规则配置数据质量

我要监控管道运行状态

推荐:Studio 运维监控,可视化查看任务运行状态、日志、告警。

场景方案参考文档
查看任务运行日志Studio 运维中心快速配置监控告警
任务失败排查Job Profile 诊断作业历史分析
DataOps 生产实践完整运维指南DataOps 数据安全稳定生产实践

不确定用哪种工具?

你的加工需求是什么? ├── 需要持续自动刷新结果(数据管道) │ ├── 对数据新鲜度要求不严格(分钟级可接受)→ Dynamic Table │ └── 需要数据始终最新以支持查询改写 → 物化视图 ├── 定期批量跑(T+1 / 按小时)→ Studio SQL 任务 + 调度 ├── 需要感知行级变更(INSERT/UPDATE/DELETE)→ Table Stream └── 一次性数据清洗 / 转换 → 直接写 SQL(INSERT INTO ... SELECT)

完整选型说明见:实时数据管道选型指南

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询