对象模型概述
云器 Lakehouse 的对象模型定义了系统中所有可管理资源的类型、层级关系和交互方式。理解对象模型有助于你快速定位所需功能,正确组织数据资产,以及设计合理的数据架构。
对象层级
Lakehouse 中的对象按以下层级组织:
层级说明:
| 层级 | 说明 | 包含对象 |
|---|---|---|
| Instance | 服务实例是 Lakehouse 产品服务的载体,包含计算、存储和元数据等全部资源 | Network Policy、Instance Role、Share、Catalog(含 Workspace / External Catalog / SHARED 三种类型) |
| Workspace | 工作空间是 MANAGED 类型的 Catalog,同时具备数据层(Schema 和数据对象)和 Studio 层(VCluster、用户、任务调度),工作空间之间默认隔离 | Connection、VCluster、Workspace Role、Workspace User、External Schema、Studio 任务(SQL / Python / Shell / 同步任务 / 工作流),以及下属的所有 Schema |
| Schema | Schema 是工作空间内数据对象的命名空间,用于逻辑分组和管理表、视图等对象 | Table、Dynamic Table、View、Volume、Pipe、Table Stream、Index、Function、Synonym、Semantic View |
对象分类
Lakehouse 中的对象按用途分为以下类别:
组织层级
组织层级对象用于构建 Lakehouse 的资源组织框架:
-
Workspace(工作空间) — Lakehouse 的原生顶层命名空间,同时具备两层能力:数据层(包含所有 Schema 和数据对象,三层命名
)和 Studio 层(独立的用户体系、角色权限、VCluster 和开发任务调度);Workspace 之间默认完全隔离,属于 Instance 级workspace.schema.table -
Catalog — 引入联邦查询后的通用顶层命名空间概念,Workspace 是其中的 MANAGED 类型(完整能力);另有两种只读类型,均无 Studio 层:
- External Catalog(EXTERNAL)— 映射外部数据源(Hive、Databricks、Iceberg 等)的元数据,用三层命名
直接查询外部数据,无需搬运,属于 Instance 级catalog.schema.table - SHARED — 系统内置共享数据集(TPC-H / TPC-DS),只读,属于 Instance 级
- External Catalog(EXTERNAL)— 映射外部数据源(Hive、Databricks、Iceberg 等)的元数据,用三层命名
-
Schema — Workspace 内数据对象的逻辑命名空间,用于分层管理(如 ods / dwd / ads),同一 Workspace 内不同 Schema 之间可以互相引用,属于 Workspace 级
-
External Schema — 基于 External Catalog 创建,将外部数据系统中的某个 Schema 映射到当前 Workspace,让用户用标准 SQL 直接查询外部数据,无需搬运,属于 Workspace 级
数据表
数据表是存储和处理数据的核心对象,均属于 Schema 级:
- 普通表 — 列式存储的结构化数据表,支持 INSERT / UPDATE / DELETE,是数仓各层的基础存储单元
- Dynamic Table(动态表) — 用 SQL 定义转换逻辑,系统自动增量刷新结果;适合构建 ODS→DWD→ADS 数据流水线,比手工调度任务少写大量胶水代码
- 视图 — 虚拟表,不存储数据,查询时动态计算;适合封装复杂 SQL、控制列级权限
- 物化视图 — 预计算并物理存储查询结果;适合高频执行的固定聚合查询,以存储换查询速度
- 外部表 — 数据保留在外部系统(Delta Lake、Hudi、Kafka 等),Lakehouse 只管理元数据;适合不想搬数据、直接查询原始存储的场景
- 语义视图 — 将多表 JOIN 和聚合逻辑封装为业务语义层,BI 工具和 AI Agent 通过语义视图访问数据,屏蔽底层表结构复杂度
文件存储
文件存储对象属于 Schema 级,用于管理非结构化数据和对象存储文件:
- Volume — 文件存储挂载点,Pipe 从 Volume 读取文件写入表,External Function 可读取 Volume 中的模型文件
连接对象
连接对象属于 Workspace 级,集中存储第三方服务的认证凭据,避免在 SQL 中硬编码密钥:
- Connection — 安全存储第三方服务的身份认证信息,权限由 Workspace 管理员控制
- API Connection — 存储云函数的调用凭据,供 External Function 调用阿里云 FC、腾讯云 SCF 等
- Storage Connection — 存储对象存储的访问密钥,供外部 Volume 和外部表使用(OSS、COS、S3)
- Catalog Connection — 存储外部元数据服务的连接信息,供 External Catalog 连接 Hive Metastore 等
数据管道与变更捕获
数据管道对象属于 Schema 级,负责数据的自动流转和变更追踪:
- Pipe — 持续监听 Volume 或 Kafka,将新到达的文件 / 消息自动写入目标表;适合替代手工轮询脚本,实现文件落库的全自动化
- Table Stream — 记录表上发生的增量变更(INSERT / UPDATE / DELETE)的游标对象,不存储数据本身;下游 Dynamic Table 或任务消费 Stream 实现 CDC 驱动的增量计算
索引
索引属于 Schema 级,在表上建立辅助数据结构,加速过滤条件命中,不改变数据的物理存储方式:
- Bloomfilter 索引 — 适合等值查询(
、=
),极低的存储开销换取大幅减少不必要的 Block 读取IN - 倒排索引 — 适合全文检索和关键词匹配,支持中文分词
- 向量索引 — 适合语义相似度搜索,支持 ANN(近似最近邻)加速向量检索
分区与分桶
分区与分桶属于 Schema 级,决定数据的物理组织方式,建表时指定,影响查询时的数据扫描范围:
- 分区 — 按时间或业务字段将数据物理分组;查询时自动跳过不涉及的分区,是大表查询性能的首选优化手段
- 分桶 — 按指定列哈希分桶,将相同 Key 的数据聚合到同一 Bucket;显著提升 Join 和聚合场景下的本地化计算比例
函数
函数对象属于 Schema 级:
- 自定义函数 — 用 SQL 或代码封装可复用的计算逻辑,在任意查询中像内置函数一样调用
- SQL Function — 用 SQL 表达式定义,在引擎内执行,适合封装业务规则、计算公式等纯 SQL 逻辑
- External Function — 将外部 HTTP 服务注册为 SQL 函数,适合调用 LLM 做文本处理、调用视觉服务做图像识别等 AI 增强计算场景
同义词
同义词对象属于 Schema 级:
- 同义词 — 为其他 Schema 中的对象创建本地别名;ADS 层引用 DIM 层的维表时,用同义词避免在查询中写完整的三段式路径(
)workspace.schema.table
数据共享
数据共享对象属于 Instance 级:
- Share — Provider 实例将指定表或视图授权给同云同服务区的 Consumer 实例;Consumer 直接读取 Provider 的原始数据,无数据复制、无存储成本、无同步延迟。不支持跨云或跨服务区共享
Studio 对象
Studio 对象属于 Workspace 级,是 Lakehouse 内置的数据开发和调度环境,与 SQL 数据对象共享同一个 Workspace 的用户体系和权限管控:
- SQL 任务 — 在 Studio IDE 中编写和调度 SQL 数据加工逻辑,支持依赖编排和定时触发
- Python / Shell 任务 — 运行自定义脚本,处理 SQL 无法覆盖的复杂逻辑
- 数据同步任务 — 可视化配置 40+ 种数据源的实时 CDC 同步或离线批量同步,无需写代码;底层使用同步型 VCluster(Integration VC)执行
- 工作流(组合任务) — 将多个任务编排为有依赖关系的 DAG,统一调度和监控
计算资源
计算资源对象属于 Workspace 级:
- VCluster(计算集群) — 弹性计算资源池,按需启停,不用时不计费;同一 Workspace 内可创建多个 VCluster 隔离不同负载
- 通用型(GP VC):适合混合 ETL 和查询负载
- 分析型(AP VC):针对大规模 OLAP 查询优化,适合 BI 和即席分析
- 同步型(Integration VC):专为实时 CDC 同步任务设计,低延迟写入
安全策略
安全策略对象用于保护数据安全和控制访问:
- 网络策略 — 基于 IP 的访问控制(白名单 / 黑名单),在实例入口拦截非授权来源,属于 Instance 级
- 动态脱敏策略 — 对指定列按用户角色动态替换敏感值(如手机号显示为
),查询结果自动脱敏,原始数据不变,属于 Schema 级(绑定到表列)138****8888
身份与权限
用户采用两层体系:在实例级创建,在工作空间级授权使用。
- 用户 — 在账户控制台创建,属于 Instance 级;创建后默认无任何数据权限,需加入工作空间并被授予角色后才能使用其中资源
- 角色 — 权限集合,通过角色批量授权,简化权限管理
- Instance Role — 实例级角色,作用于整个服务实例(如
、instance_admin
),属于 Instance 级instance_user - Workspace Role — 工作空间级角色,仅作用于特定工作空间(如
、workspace_admin
),属于 Workspace 级workspace_dev
- Instance Role — 实例级角色,作用于整个服务实例(如
表的高级特性
以下是表级别的可配置特性,不是独立的对象类型:
- Time Travel — 访问表的历史版本数据,恢复误删 / 误改;通过
查询任意历史时间点的数据TIMESTAMP AS OF - 数据生命周期管理 — 为表或分区设置过期策略,自动回收过期数据,控制存储成本
典型架构模式
多云 · 多 Region · 多实例
无论部署在哪个云、哪个 Region,每个 Lakehouse 实例对外呈现完全一致的 SQL 语法、对象模型、API 和权限体系。业务团队切换部署环境不需要重写任何代码。

每个云厂商的每个 Region 可以独立部署一个或多个 Lakehouse 实例,实例之间完全隔离,各自拥有独立的计算、存储、元数据和访问控制。
目前支持的云厂商和 Region:
| 云厂商 | Region |
|---|---|
| 阿里云 | 华东2(上海)、华北2(北京)、新加坡 |
| 腾讯云 | 华北(北京)、华东(上海)、华南(广州) |
| AWS | 华北(北京)、新加坡 |
适用场景:多地容灾部署、海外业务独立实例、合规要求数据不出境。
同一实例多 Workspace — 业务线隔离
一个实例下可以创建多个 Workspace,不同业务线使用独立的 Workspace,实现用户、权限、计算集群和数据对象的完全隔离。Workspace 之间默认不互通,跨 Workspace 访问需要显式授权。
这种模式的核心价值是隔离:数据平台团队的 ETL 任务不会影响 BI 团队的查询性能;算法团队的实验性操作不会误改生产数据;不同业务线的数据权限互不干扰。
典型划分方式:
- 数据平台 Workspace:数据工程师负责,运行 ETL 和 CDC 同步任务,拥有写权限
- 业务分析 Workspace:分析师和 BI 团队,只读权限,连接 BI 工具,使用独立的分析型 VCluster
- AI / ML Workspace:算法工程师,运行向量检索和 LLM 推理任务,使用 AI 专属 VCluster
同一 Workspace 多 Schema — 数仓分层
同一个 Workspace 内通过 Schema 实现数仓分层,每层数据对象独立管理,层间通过 Dynamic Table 自动增量刷新。这是云器 Lakehouse 推荐的数仓建设模式:用 Schema 划分层次,用 Dynamic Table 替代手工调度,数据流水线自动运转。
标准分层:
| Schema | 定位 | 主要对象 |
|---|---|---|
| 原始数据层,贴源存储 | Table、Pipe、Table Stream、External Table |
| 明细数据层,清洗加工 | Dynamic Table、Partition、Dynamic Mask |
| 汇总数据层,聚合指标 | Dynamic Table、Materialized View、Bloomfilter Index |
| 应用数据层,直接对外 | Table、View、Semantic View、Synonym |
| 维度层,跨层复用 | Table(缓慢变化维)、Table Stream、Synonym |
同云同实例跨账号零复制数据共享
通过 Share 对象,Provider 实例可以将表或视图实时共享给同云同服务区的 Consumer 实例,Consumer 直接查询 Provider 的原始数据,无需复制,无存储成本,无同步延迟。
这种模式适合集团内部跨子公司共享数据、数据服务商向客户开放数据集等场景。Consumer 只有读权限,无法修改 Provider 的数据;Provider 随时可以撤销授权。
约束:仅支持同一云厂商、同一服务区内跨实例共享,不支持跨云或跨服务区。
操作流程:
对象关系速查
| 场景 | 涉及对象 |
|---|---|
| 数据入湖(文件) | Volume → Pipe → 表 |
| 数据入湖(数据库 CDC) | Connection → 实时同步任务(Studio)→ 表 |
| 数据加工(增量) | 表 → Dynamic Table → 表 |
| 数据加工(CDC 消费) | 表 → Table Stream → Dynamic Table(或任务)→ 表 |
| 联邦查询(不搬数据,原地加速) | External Catalog / External Schema → 查询 — 实施指南 |
| 数据共享 | Share → 同云同服务区跨实例访问(不支持跨云/跨服务区) |
| 查询加速 | 物化视图 / 索引 / 分区 → 表 |
| AI 增强分析 | 向量索引 + 倒排索引 + 语义视图 |
