数据新鲜度与动态表

数据新鲜度衡量数据从产生到可供查询之间的延迟。天气预报每小时刷新一次就够用，核电站控制需要毫秒级响应——不同场景对数据新鲜度的要求差异可达数万倍。

把"够用"当成目标，而不是一味追求最快，是设计数据处理链路的起点。够用的判断标准只有一个：数据晚到 N 分钟，是否造成可度量的业务损失？ 如果不造成，就够用了。一张看板数字从 5 秒更新改为 5 分钟更新，决策质量不变——但系统架构和运维成本可能相差数量级。

新鲜度不是开关，是光谱

"实时"和"离线"这两个标签是历史遗留的简化，它们把一条连续的光谱压成了两个开关。真实世界是这样的：

新鲜度级别	典型周期	数据怎么刷新
天级	T+1	凌晨跑批量任务，全量重算
小时级	每 1–4 小时	定时调度，增量或全量计算
分钟级	每 1–15 分钟	感知数据变化后按需增量刷新
秒级	1–30 秒	事件驱动，持续增量刷新
亚秒级	< 1 秒	逐事件常驻处理

越往右，延迟越低，成本越高。真正的工程问题是：你的场景真正需要的是哪个频段？

"实时"标签的普遍误用

大量被标记为"实时"的数据场景，业务上并不需要秒级甚至亚秒级延迟。IDC 2025 年的行业调研显示，63% 的数据处理场景只需要分钟级即可满足业务需求——核心报表的交付标准可以是分钟级（含故障恢复时间），营销活动分析明确定位为"分钟级足以"，BI 看板在 1 到 15 分钟内刷新，决策质量并不受影响。

这背后有一个普遍规律：分析型负载的消费方是人。人阅读看板、理解趋势、做出决策，这个过程的耗时本身就是分钟到小时级别的。数据在 5 分钟内可用还是在 5 秒内可用，对最终决策的影响微乎其微——但对系统架构和运维成本的影响是数量级的。

数据在生产环境的端到端延迟，瓶颈往往不在加工引擎，而在上游的采集频率和下游的消费节奏。 数据从业务系统抽取出库本身就有延迟（CDC 日志轮询、文件到达周期），结果推送到看板后用户可能半小时才看一次。把中间加工环节做到秒级，上游没跟上，下游没利用，多付的成本没有产生对应价值。

消费方式也决定了新鲜度的有效上限。 如果结果是推送到每天看一次的邮件周报，分钟级刷新没有意义——T+1 足够。如果是嵌在运营系统的自动决策接口，新鲜度需求由接口的调用频率决定——每 5 分钟调一次接口，数据 10 秒内刷新没有价值。BI 工具的连接方式也影响新鲜度：直连查询可以每次取最新数据，定时导入则由导入频率决定数据新旧。新鲜度的目标应该从消费端倒推——先问"数据最后被怎么用"，再问"加工链路应该多快"。

另一个常被忽略的因素：流计算留在生产环境里，更多是因为有状态语义而非因为延迟。 exactly-once 语义、乱序事件纠正、复杂事件模式匹配——这些是流引擎真正不可替代的能力。很多流作业的存在是为了统一流批架构和复用资源，而不是因为业务真的需要亚秒级。

IDC 2025 年的行业调研显示，63% 的数据处理场景只需要分钟级即可满足业务需求。工程界也在同步验证这个方向。多个引擎在相互独立的演进路径上朝同一个目标收敛——让用户声明"数据需要多新鲜"，由引擎决定用批还是流来实现。Flink 的 Materialized Table、Snowflake Dynamic Tables、Databricks DLT 都在做同一件事。这不是巧合，是工程约束推到一定程度的共同答案。

三种计算范式：增量在两端同时改变格局

增量计算不是"批和流之间的第三选择"——它在从两端同时改变格局，让批处理和流处理各自向中间收敛。

批处理：想更实时，但不想学流处理

批处理的核心问题不是"算得不对"——它是算得最准的方式。问题在于数据新鲜度跟不上业务需要。T+1 交付的看板，业务看到的是昨天的数据。今天上午的市场变化，下午才能分析。

解决这个问题的传统路径是学流处理：搭一条流处理链路，部署常驻集群，理解 watermark、window 和 trigger。但这对以 SQL 为主要工具的数据团队来说，相当于为了一道菜换了一个厨房。

增量计算提供的是另一条路径：不需要学流处理，不需要换工具链。同一条标准 SQL，声明

REFRESH INTERVAL 5 MINUTE

REFRESH INTERVAL 5 MINUTE

，批处理链路就从 T+1 变成分钟级。对于大多数只需要分钟级新鲜度的批处理场景，这足够了。

值得注意的是，很多团队的起点根本不是流处理，而是天级批处理——当业务开始觉得"昨天的数据不够用"，面对的选项往往是"要么接受现状，要么引入一套流计算体系"。引入流计算意味着新语言、新运维、新团队能力。增量计算打开的，不只是"比流处理更便宜"，更是这批因为门槛太高所以根本没做实时的场景。

流处理：想更简单，但不想抛弃实时能力

流处理的核心问题不是"不够快"——它够快。问题是为秒级设计的架构被大量用于只需要分钟级的场景。

常驻集群 7×24 占用资源，状态后端调优需要专门团队，checkpoint 和反压调优随作业数非线性增长。运维负担不是"难"——是难在正好卡在某个规模区间。超大规模厂商能养专职 Flink 平台团队，能用混部复用夜间空闲资源，反而把单作业成本压下来了。作业量很小的团队，原生的运维复杂度也够用。最痛的是中间那群——作业已经多到原生运维扛不住，体量却不够养一支专职流计算平台团队，每条新业务线上线都意味着运维负担再叠一层。

这个问题的真正结果不只是"运维变难"：一条只需要分钟级新鲜度的新业务线，如果被要求承担一套常驻流集群的 TCO 和专才门槛，理性选择是不上。不是场景没有价值，是门槛挡住了。增量计算打开的，是这批本来就不会被建设的场景。

云托管的 Flink 缓解了运维的显性负担，但没有消除根因——资源依然是常驻的，常驻意味着低峰也在付费，新业务线上线依然需要判断"值不值得"。

当一条链路只是为了"把数据从 ODS 加工到 DWD 供下游看板使用"，延后 3 分钟完全无所谓——那为什么还要付 7×24 常驻集群的成本？

增量计算提供的是回归简单的选择：那些真正需要亚秒级的场景（反欺诈、实时竞价、CEP）保留流处理。那些只是想要数据尽快可查的场景，用声明式 SQL 就够了。不需要管理 state，不需要理解 checkpoint，不需要半夜爬起来处理反压——刷新频率设好了，引擎自己干活。

什么会留下，什么会迁移

范式	会留在原范式的场景	会向增量计算迁移的场景
批处理	月度对账、合规审计、需要全量验证的场景	BI 看板、经营分析、营销报表、日常 ETL
流处理	反欺诈拦截、RTB 竞价、亚秒告警、需要 exactly-once 的有状态 CEP	CDC 入仓、特征工程、实时大屏、分钟级数仓

增量计算不是在批和流之间插一个中间选项——它是在重新定义两条线：批处理被往上拉到分钟级，流处理中大量"只为分钟级"的部分被往下拉到声明式 SQL。两端向中间收敛。从常驻计算切换到按需刷新，成本变化是量级的，不是百分比的边际优化。

Lakehouse 怎么做

云器 Lakehouse 通过两个核心能力实现分级新鲜度：

数据入湖：通过实时同步任务（数据库 CDC）或 Pipe（Kafka / 对象存储）将数据持续摄入，延迟从秒级到分钟级可选。

Dynamic Table：用标准 SQL 定义多级新鲜度。

REFRESH INTERVAL

REFRESH INTERVAL

子句控制刷新频率，引擎在底层自适应选择全量还是增量执行。详见Dynamic Table。

CREATE DYNAMIC TABLE dws_sales_dashboard REFRESH INTERVAL 5 MINUTE VCLUSTER DEFAULT AS SELECT ...; -- 标准 SQL，和批处理写法完全一样

REFRESH INTERVAL 5 MINUTE

REFRESH INTERVAL 5 MINUTE

告诉引擎"数据 5 分钟以内追平就行"。引擎自己决定这次用增量还是全量，你不需要管。

怎样判断一个场景用什么新鲜度

首先，也是最关键的问题：你需要的是计算语义，还是数据新鲜度？

这两类需求本质不同，不是同一维度上的快慢取舍。

如果业务需要 exactly-once 保证、事件乱序纠正、复杂事件模式匹配（比如"同一账户 10 分钟内发生 3 次异地登录"）——那是计算语义问题。这类场景的核心需求不是"数据多快可查"，而是"计算过程中不能出错、不能漏数"。应该用流处理，增量计算不是替代选项。

如果只是希望数据尽快可查，看板数字能追上最近发生的事——那是新鲜度问题。用增量计算，声明你需要的刷新间隔，其余的交给引擎。

确认是新鲜度问题之后，再问两个细化问题：

数据消费方是谁？

如果是人（看板、报表、BI 分析），分钟级几乎总是够用。人的决策节奏决定了数据新鲜度的有效上限。如果消费方是自动决策系统（反欺诈拦截、竞价引擎），才需要考虑秒到亚秒级——但这时候通常已经回到了计算语义的问题。

链路的上游和下游能支撑多快？

源头数据本身是每小时产出一次的文件，中间加工到秒级没有意义。结果推送到每周看一次的周报，秒级刷新没有价值。新鲜度由整条链路最慢的环节决定，单独加速中间一段是浪费。

同一业务内的新鲜度需求是分层的。

数据大屏要求分钟级、热门榜单小时级、合规报表天级——这三种需求同时存在于同一个业务里是常态，不是例外。用一套流处理架构覆盖全部层次，意味着为最严格的要求付出所有场景的成本。分层配置（不同刷新间隔对应不同刷新频率的 Dynamic Table）比一刀切更经济，也更容易维护。