增量计算概述
流式数据处理(Streaming data pipeline)是面向实时数据持续不断地进行数据采集、处理转换,以获得满足业务时效性要求的结果数据的一组任务集合。流式数据处理是分析人员、业务应用开展实时洞察或实时决策的基础。
与周期性离线处理(Batch data pipeline)有所不同,流式数据处理通过编排实时数据采集任务和支持增量数据处理的 SQL 任务,持续产出实时更新的结果数据。处理过程中使用增量处理技术以提高处理效率,同时降低成本。
云器 Lakehouse 流式数据处理过程中,总体处理流程示例如下:

流式数据处理的产品功能特性包括:
| 功能特性 | 特性说明 |
|---|---|
| 实时数据加载 | 实时数据加载服务:通过 SDK/Connector 方式提供 Streaming API,支持实时追加/更新写入、秒级可见的系统托管服务。可使用 SDK 或 Flink Connector 调用接口向目标表写入数据。Studio 数据集成服务:内建的数据集成工具,支持多种实时数据源(如 Kafka、数据库 CDC 等)的实时抽取,写入 Lakehouse 时通过 Streaming API 实时写入目标表。 |
| 增量数据处理 | 动态表:通过动态表声明式定义数据加工逻辑,支持任意 SQL 语法和算子,系统自动读取 Base 表的增量变化,自适应地通过增量/全量算法优化数据处理效率。用户可创建 1 个或多个动态表并设置调度策略,系统自动识别依赖关系并持续调度执行,大大简化实时数据处理的开发过程。注:当前最小支持 1min 的调度间隔。 |
| 变化数据捕获 | Table Stream:Table Stream 是系统内置的 SQL 对象类型,一个 Table Stream 创建在指定的一张表之上,可以记录该表的数据变化(CDC)信息。Table Stream 支持通过 SQL 查询获取指定两个数据版本之间的变化记录数据,例如 5 分钟前至当前这段时间的变化记录。通过 Table Stream,下游的 SQL ETL 可以非常简单易用地读取和处理表变化数据,或者将变化结果同步输出给外部系统。 |
| 连续性调度 | 系统提供两种调度方式: |
| 动态表自身设置调度周期:通过物化视图 DDL 定义时,可通过指定 INTERVAL 关键字设置调度周期。 | |
| 使用 Studio 调度任务调度:在 Web IDE 中创建 SQL 任务,设置任务调度周期。此种方式同时支持对动态表、使用 Table Stream 的 SQL ETL 作业这两种任务进行调度。注:使用 Studio 调度系统,可获得更好的任务执行观测性和运维告警能力。 |
联系我们
