增量计算概述

流式数据处理(Streaming data pipeline)是面向实时数据持续不断地进行数据采集、处理转换以获得满足业务时效性要求结果数据的一组任务集合。流式数据处理是分析人员、业务应用开展实时洞察或实时决策的基础。

与周期性离线处理(Batch data pipeline)有所不同,流式数据处理通过编排实时数据采集任务和支持增量数据处理的SQL任务,持续产出实时更新的结果数据。处理过程中使用增量处理技术以提高处理效率、同时降低成本。

云器Lakehouse流式数据处理过程中,总体处理流程示例如下:

流式数据处理的产品功能特性包括:

功能特性特性说明
实时数据加载实时数据加载服务:通过SDK/Conector方式提供Streaming API,支持实时追加/更新写入、秒级可见的系统托管服务。可使用SDK或Flink Connector调用接口向目标表写入数据。Studio数据集成服务:内建的数据集成工具,支持多种实时数据源(如Kafka、数据库CDC等数据源)的实时抽取,写入Lakehouse时通过Streaming API实时写入Lakehouse目标表。
增量数据处理动态表:通过动态表声明式定义数据加工逻辑,支持任意SQL语法和算子,系统自动读取Base表的增量变化,自适应地通过增量/全量算法优化数据处理效率。用户可创建1个或多个动态表设置调度策略,系统自动识别依赖关系并持续调度执行,大大简化实时数据处理的开发过程。注:当前最小支持1Min的调度间隔。
变化数据捕获Table Stream:Table Stream是系统内置的SQL对象类型,一个table stream创建在指定的一张表之上,可以记录该表的数据变化(CDC)信息。Table Stream支持通过SQL查询获取指定2个数据版本之间的变化记录数据,例如如5min前至当前这段时间的变化记录。通过table stream,下游的SQL ETL可以非常简单易用地读取和处理表变化数据;或者将变化结果同步输出给外部系统。
连续性调度系统提供两种调度方式: 动态表自身设置调度周期:通过物化视图DDL定义时,可通过指定INTERVAL关键字设置调度周期。 使用Studio调度任务调度:在Web IDE中创建SQL任务,设置任务调度周期。此种方式同时支持动态表、使用Table Stream的SQL ETL作业进行调度2种任务的调度。注:使用Studio调度系统,可获得更好的任务执行观测性、运维告警能力。

联系我们
预约咨询
微信咨询
电话咨询