对象模型概述

云器 Lakehouse 的对象模型定义了系统中所有可管理资源的类型、层级关系和交互方式。理解对象模型有助于你快速定位所需功能，正确组织数据资产，以及设计合理的数据架构。

对象层级

Lakehouse 中的对象按以下层级组织：

层级说明：

层级	说明	包含对象
Instance	服务实例是 Lakehouse 产品服务的载体，包含计算、存储和元数据等全部资源	Network Policy、Instance Role、Share、Catalog（含 Workspace / External Catalog / SHARED 三种类型）
Workspace	工作空间是 MANAGED 类型的 Catalog，同时具备数据层（Schema 和数据对象）和 Studio 层（VCluster、用户、任务调度），工作空间之间默认隔离	Connection、VCluster、Workspace Role、Workspace User、External Schema、Studio 任务（SQL / Python / Shell / 同步任务 / 工作流），以及下属的所有 Schema
Schema	Schema 是工作空间内数据对象的命名空间，用于逻辑分组和管理表、视图等对象	Table、Dynamic Table、View、Volume、Pipe、Table Stream、Index、Function、Synonym、Semantic View

对象分类

Lakehouse 中的对象按用途分为以下类别：

组织层级

组织层级对象用于构建 Lakehouse 的资源组织框架：

Workspace（工作空间） — Lakehouse 的原生顶层命名空间，同时具备两层能力：数据层（包含所有 Schema 和数据对象，三层命名
```
workspace.schema.table
```
workspace.schema.table
）和 Studio 层（独立的用户体系、角色权限、VCluster 和开发任务调度）；Workspace 之间默认完全隔离，属于 Instance 级
Catalog — 引入联邦查询后的通用顶层命名空间概念，Workspace 是其中的 MANAGED 类型（完整能力）；另有两种只读类型，均无 Studio 层：
- External Catalog（EXTERNAL）— 映射外部数据源（Hive、Databricks、Iceberg 等）的元数据，用三层命名
```
catalog.schema.table
```
  catalog.schema.table
  直接查询外部数据，无需搬运，属于 Instance 级
- SHARED — 系统内置共享数据集（TPC-H / TPC-DS），只读，属于 Instance 级
Schema — Workspace 内数据对象的逻辑命名空间，用于分层管理（如 ods / dwd / ads），同一 Workspace 内不同 Schema 之间可以互相引用，属于 Workspace 级
External Schema — 基于 External Catalog 创建，将外部数据系统中的某个 Schema 映射到当前 Workspace，让用户用标准 SQL 直接查询外部数据，无需搬运，属于 Workspace 级

数据表

数据表是存储和处理数据的核心对象，均属于 Schema 级：

普通表 — 列式存储的结构化数据表，支持 INSERT / UPDATE / DELETE，是数仓各层的基础存储单元
Dynamic Table（动态表） — 用 SQL 定义转换逻辑，系统自动增量刷新结果；适合构建 ODS→DWD→ADS 数据流水线，比手工调度任务少写大量胶水代码
视图 — 虚拟表，不存储数据，查询时动态计算；适合封装复杂 SQL、控制列级权限
物化视图 — 预计算并物理存储查询结果；适合高频执行的固定聚合查询，以存储换查询速度
外部表 — 数据保留在外部系统（Delta Lake、Hudi、Kafka 等），Lakehouse 只管理元数据；适合不想搬数据、直接查询原始存储的场景
语义视图 — 将多表 JOIN 和聚合逻辑封装为业务语义层，BI 工具和 AI Agent 通过语义视图访问数据，屏蔽底层表结构复杂度

文件存储

文件存储对象属于 Schema 级，用于管理非结构化数据和对象存储文件：

Volume — 文件存储挂载点，Pipe 从 Volume 读取文件写入表，External Function 可读取 Volume 中的模型文件
- 内部 Volume — User Volume（用户个人空间）和 Table Volume（表关联存储），随实例自动创建
- 外部 Volume — 挂载已有的对象存储桶（OSS / COS / S3），数据留在原位，Lakehouse 通过 Storage Connection 访问

连接对象

连接对象属于 Workspace 级，集中存储第三方服务的认证凭据，避免在 SQL 中硬编码密钥：

Connection — 安全存储第三方服务的身份认证信息，权限由 Workspace 管理员控制
- API Connection — 存储云函数的调用凭据，供 External Function 调用阿里云 FC、腾讯云 SCF 等
- Storage Connection — 存储对象存储的访问密钥，供外部 Volume 和外部表使用（OSS、COS、S3）
- Catalog Connection — 存储外部元数据服务的连接信息，供 External Catalog 连接 Hive Metastore 等

数据管道与变更捕获

数据管道对象属于 Schema 级，负责数据的自动流转和变更追踪：

Pipe — 持续监听 Volume 或 Kafka，将新到达的文件 / 消息自动写入目标表；适合替代手工轮询脚本，实现文件落库的全自动化
Table Stream — 记录表上发生的增量变更（INSERT / UPDATE / DELETE）的游标对象，不存储数据本身；下游 Dynamic Table 或任务消费 Stream 实现 CDC 驱动的增量计算

索引

索引属于 Schema 级，在表上建立辅助数据结构，加速过滤条件命中，不改变数据的物理存储方式：

Bloomfilter 索引 — 适合等值查询（
```
=
```
=
、
```
IN
```
IN
），极低的存储开销换取大幅减少不必要的 Block 读取
倒排索引 — 适合全文检索和关键词匹配，支持中文分词
向量索引 — 适合语义相似度搜索，支持 ANN（近似最近邻）加速向量检索

分区与分桶

分区与分桶属于 Schema 级，决定数据的物理组织方式，建表时指定，影响查询时的数据扫描范围：

分区 — 按时间或业务字段将数据物理分组；查询时自动跳过不涉及的分区，是大表查询性能的首选优化手段
分桶 — 按指定列哈希分桶，将相同 Key 的数据聚合到同一 Bucket；显著提升 Join 和聚合场景下的本地化计算比例

函数

函数对象属于 Schema 级：

自定义函数 — 用 SQL 或代码封装可复用的计算逻辑，在任意查询中像内置函数一样调用
- SQL Function — 用 SQL 表达式定义，在引擎内执行，适合封装业务规则、计算公式等纯 SQL 逻辑
- External Function — 将外部 HTTP 服务注册为 SQL 函数，适合调用 LLM 做文本处理、调用视觉服务做图像识别等 AI 增强计算场景

同义词

同义词对象属于 Schema 级：

同义词 — 为其他 Schema 中的对象创建本地别名；ADS 层引用 DIM 层的维表时，用同义词避免在查询中写完整的三段式路径（
```
workspace.schema.table
```
workspace.schema.table
）

数据共享

数据共享对象属于 Instance 级：

Share — Provider 实例将指定表或视图授权给同云同服务区的 Consumer 实例；Consumer 直接读取 Provider 的原始数据，无数据复制、无存储成本、无同步延迟。不支持跨云或跨服务区共享

Studio 对象

Studio 对象属于 Workspace 级，是 Lakehouse 内置的数据开发和调度环境，与 SQL 数据对象共享同一个 Workspace 的用户体系和权限管控：

SQL 任务 — 在 Studio IDE 中编写和调度 SQL 数据加工逻辑，支持依赖编排和定时触发
Python / Shell 任务 — 运行自定义脚本，处理 SQL 无法覆盖的复杂逻辑
数据同步任务 — 可视化配置 40+ 种数据源的实时 CDC 同步或离线批量同步，无需写代码；底层使用同步型 VCluster（Integration VC）执行
工作流（组合任务） — 将多个任务编排为有依赖关系的 DAG，统一调度和监控

Studio 开发对象主要通过图形界面管理，不通过 SQL DDL 创建。CZ-CLI 也支持 Studio 任务的开发、部署和运行巡检，适合命令行和 AI Agent 场景。详见深入使用 Studio。

计算资源

计算资源对象属于 Workspace 级：

VCluster（计算集群） — 弹性计算资源池，按需启停，不用时不计费；同一 Workspace 内可创建多个 VCluster 隔离不同负载
- 通用型（GP VC）：适合混合 ETL 和查询负载
- 分析型（AP VC）：针对大规模 OLAP 查询优化，适合 BI 和即席分析
- 同步型（Integration VC）：专为实时 CDC 同步任务设计，低延迟写入

安全策略

安全策略对象用于保护数据安全和控制访问：

网络策略 — 基于 IP 的访问控制（白名单 / 黑名单），在实例入口拦截非授权来源，属于 Instance 级
动态脱敏策略 — 对指定列按用户角色动态替换敏感值（如手机号显示为
```
138****8888
```
138****8888
），查询结果自动脱敏，原始数据不变，属于 Schema 级（绑定到表列）

身份与权限

用户采用两层体系：在实例级创建，在工作空间级授权使用。

用户 — 在账户控制台创建，属于 Instance 级；创建后默认无任何数据权限，需加入工作空间并被授予角色后才能使用其中资源
角色 — 权限集合，通过角色批量授权，简化权限管理
- Instance Role — 实例级角色，作用于整个服务实例（如
```
instance_admin
```
  instance_admin
  、
```
instance_user
```
  instance_user
  ），属于 Instance 级
- Workspace Role — 工作空间级角色，仅作用于特定工作空间（如
```
workspace_admin
```
  workspace_admin
  、
```
workspace_dev
```
  workspace_dev
  ），属于 Workspace 级

表的高级特性

以下是表级别的可配置特性，不是独立的对象类型：

Time Travel — 访问表的历史版本数据，恢复误删 / 误改；通过
```
TIMESTAMP AS OF
```
TIMESTAMP AS OF
查询任意历史时间点的数据
数据生命周期管理 — 为表或分区设置过期策略，自动回收过期数据，控制存储成本

典型架构模式

多云 · 多 Region · 多实例

无论部署在哪个云、哪个 Region，每个 Lakehouse 实例对外呈现完全一致的 SQL 语法、对象模型、API 和权限体系。业务团队切换部署环境不需要重写任何代码。

每个云厂商的每个 Region 可以独立部署一个或多个 Lakehouse 实例，实例之间完全隔离，各自拥有独立的计算、存储、元数据和访问控制。

目前支持的云厂商和 Region：

云厂商	Region
阿里云	华东2（上海）、华北2（北京）、新加坡
腾讯云	华北（北京）、华东（上海）、华南（广州）
AWS	华北（北京）、新加坡

适用场景：多地容灾部署、海外业务独立实例、合规要求数据不出境。

同一实例多 Workspace — 业务线隔离

一个实例下可以创建多个 Workspace，不同业务线使用独立的 Workspace，实现用户、权限、计算集群和数据对象的完全隔离。Workspace 之间默认不互通，跨 Workspace 访问需要显式授权。

这种模式的核心价值是隔离：数据平台团队的 ETL 任务不会影响 BI 团队的查询性能；算法团队的实验性操作不会误改生产数据；不同业务线的数据权限互不干扰。

典型划分方式：

数据平台 Workspace：数据工程师负责，运行 ETL 和 CDC 同步任务，拥有写权限
业务分析 Workspace：分析师和 BI 团队，只读权限，连接 BI 工具，使用独立的分析型 VCluster
AI / ML Workspace：算法工程师，运行向量检索和 LLM 推理任务，使用 AI 专属 VCluster

同一 Workspace 多 Schema — 数仓分层

同一个 Workspace 内通过 Schema 实现数仓分层，每层数据对象独立管理，层间通过 Dynamic Table 自动增量刷新。这是云器 Lakehouse 推荐的数仓建设模式：用 Schema 划分层次，用 Dynamic Table 替代手工调度，数据流水线自动运转。

标准分层：

Schema	定位	主要对象
`ods` ods	原始数据层，贴源存储	Table、Pipe、Table Stream、External Table
`dwd` dwd	明细数据层，清洗加工	Dynamic Table、Partition、Dynamic Mask
`dws` dws	汇总数据层，聚合指标	Dynamic Table、Materialized View、Bloomfilter Index
`ads` ads	应用数据层，直接对外	Table、View、Semantic View、Synonym
`dim` dim	维度层，跨层复用	Table（缓慢变化维）、Table Stream、Synonym

同云同实例跨账号零复制数据共享

通过 Share 对象，Provider 实例可以将表或视图实时共享给同云同服务区的 Consumer 实例，Consumer 直接查询 Provider 的原始数据，无需复制，无存储成本，无同步延迟。

这种模式适合集团内部跨子公司共享数据、数据服务商向客户开放数据集等场景。Consumer 只有读权限，无法修改 Provider 的数据；Provider 随时可以撤销授权。

约束：仅支持同一云厂商、同一服务区内跨实例共享，不支持跨云或跨服务区。

操作流程：

-- Provider：创建共享对象并授权 CREATE SHARE my_share; ALTER SHARE my_share ADD TABLE ads.order_summary; ALTER SHARE my_share ADD INSTANCE consumer_instance_id; -- Consumer：基于 Share 创建只读 Schema 并查询 CREATE SCHEMA shared_data FROM SHARE provider_instance.my_share; SELECT * FROM shared_data.order_summary;

对象关系速查

场景	涉及对象
数据入湖（文件）	Volume → Pipe → 表
数据入湖（数据库 CDC）	Connection → 实时同步任务（Studio）→ 表
数据加工（增量）	表 → Dynamic Table → 表
数据加工（CDC 消费）	表 → Table Stream → Dynamic Table（或任务）→ 表
联邦查询（不搬数据，原地加速）	External Catalog / External Schema → 查询 — 实施指南
数据共享	Share → 同云同服务区跨实例访问（不支持跨云/跨服务区）
查询加速	物化视图 / 索引 / 分区 → 表
AI 增强分析	向量索引 + 倒排索引 + 语义视图

联系我们