数据加工
Lakehouse 的数据加工能力覆盖四类模式:自动增量刷新管道(Dynamic Table)、定期批量 ETL(Studio 任务调度)、数据变更捕获(Table Stream)和查询加速(物化视图)。按加工时效和触发方式选择。
我要搭建数据管道(ODS → DWD → ADS)
推荐:Dynamic Table(动态表),定义一条 SQL,系统自动增量计算并维护结果,无需手动调度。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 多层加工链路,自动增量刷新 | Dynamic Table | 动态表介绍 · 创建动态表 |
| 实时 ETL 完整示例 | Dynamic Table 教程 | 使用动态表开展实时 ETL |
| 近实时增量处理管道 | Dynamic Table + Table Stream | 开发动态表实现近实时增量处理 |
| CDC 数据处理(数据库变更实时加工) | 多表实时同步 + Dynamic Table | CDC 及数据处理完整示例 |
| 实现 SCD(缓慢变化维) | Table Stream + 任务 | SCD 实现指南 |
我要做定期批量 ETL(T+1 / 按小时调度)
推荐:Studio SQL 任务 + 调度,在 Studio 中编写 SQL,配置 Cron 调度,可视化监控运行状态。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| SQL 转换任务 + 周期调度 | Studio SQL 任务 | 任务开发与调度 · 快速配置 ETL 流程 |
| 多任务编排(有依赖关系) | 组合任务 / 任务组 | 组合任务 · 任务组 |
| 需要 Python 处理(pandas / 自定义逻辑) | Studio Python 任务 | Python 任务开发 |
| 使用 dbt 做数据建模 | dbt + Lakehouse | 使用 dbt 在 Lakehouse 进行增量开发 |
我要感知表的数据变化(CDC / 增量驱动)
推荐:Table Stream,捕获表的 INSERT / UPDATE / DELETE 变更,驱动下游增量处理。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 捕获表变更,驱动下游加工 | Table Stream | Table Stream 介绍 · 创建 Table Stream |
| Table Stream 最佳实践 | — | Table Stream 最佳实践 |
我要加速查询(预计算 / 缓存结果)
推荐:物化视图,预计算并存储查询结果,支持查询改写自动加速。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 预计算高频复杂查询 | 物化视图 | 物化视图介绍 · 创建物化视图 |
| 查询改写(透明加速) | 物化视图 + 查询改写 | 查询改写功能 |
我要做 SQL 数据转换(清洗 / 聚合 / 关联)
| 场景 | 参考文档 |
|---|---|
| SQL 转换基础语法 | SQL 数据转换基础 |
| 窗口函数(同比 / 环比 / 排名) | 通过窗口函数进行数据转换 |
| CTE 复杂查询 | 通过 CTE 进行数据转换 |
| 嵌套数据类型(Array / Map / Struct) | 嵌套数据类型转换 |
| JSON 数据处理 | 复杂业务场景 JSON 处理指南 |
| 实用技巧汇总 | SQL 转换技巧 |
| 漏斗分析与用户行为 | 漏斗分析指南 |
| 会话分析(Sessionization) | 会话分析指南 |
| 留存与同期群分析 | 留存与同期群分析指南 |
| 营销归因分析 | 归因分析指南 |
| 层级查询(组织架构/BOM) | 层级查询 Workaround |
| 数据去重处理 | 数据去重处理指南 |
| 数据透视(行转列/列转行) | 数据透视与行列转换指南 |
| 累计计算与运行总计 | 累计计算与运行总计指南 |
我要保证数据质量
推荐:Studio 数据质量规则(DQC),配置校验规则,数据加工前自动拦截异常数据。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 配置数据质量检查规则 | Studio DQC | 快速配置数据质量规则 |
| 数据质量完整指南 | DQC 规则配置 | 数据质量 |
我要监控管道运行状态
推荐:Studio 运维监控,可视化查看任务运行状态、日志、告警。
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 查看任务运行日志 | Studio 运维中心 | 快速配置监控告警 |
| 任务失败排查 | Job Profile 诊断 | 作业历史分析 |
| DataOps 生产实践 | 完整运维指南 | DataOps 数据安全稳定生产实践 |
不确定用哪种工具?
完整选型说明见:实时数据管道选型指南
联系我们
