对象模型概述

云器 Lakehouse 的对象模型定义了系统中所有可管理资源的类型、层级关系和交互方式。理解对象模型有助于你快速定位所需功能,正确组织数据资产,以及设计合理的数据架构。

对象层级

Lakehouse 中的对象按以下层级组织:

层级说明

层级说明包含对象
Instance服务实例是 Lakehouse 产品服务的载体,包含计算、存储和元数据等全部资源Network Policy、Instance Role、Share、Catalog(含 Workspace / External Catalog / SHARED 三种类型)
Workspace工作空间是 MANAGED 类型的 Catalog,同时具备数据层(Schema 和数据对象)和 Studio 层(VCluster、用户、任务调度),工作空间之间默认隔离Connection、VCluster、Workspace Role、Workspace User、External Schema、Studio 任务(SQL / Python / Shell / 同步任务 / 工作流),以及下属的所有 Schema
SchemaSchema 是工作空间内数据对象的命名空间,用于逻辑分组和管理表、视图等对象Table、Dynamic Table、View、Volume、Pipe、Table Stream、Index、Function、Synonym、Semantic View

对象分类

Lakehouse 中的对象按用途分为以下类别:

组织层级

组织层级对象用于构建 Lakehouse 的资源组织框架:

  • Workspace(工作空间) — Lakehouse 的原生顶层命名空间,同时具备两层能力:数据层(包含所有 Schema 和数据对象,三层命名

    workspace.schema.table
    workspace.schema.table
    )和 Studio 层(独立的用户体系、角色权限、VCluster 和开发任务调度);Workspace 之间默认完全隔离,属于 Instance 级

  • Catalog — 引入联邦查询后的通用顶层命名空间概念,Workspace 是其中的 MANAGED 类型(完整能力);另有两种只读类型,均无 Studio 层:

    • External Catalog(EXTERNAL)— 映射外部数据源(Hive、Databricks、Iceberg 等)的元数据,用三层命名
      catalog.schema.table
      catalog.schema.table
      直接查询外部数据,无需搬运,属于 Instance 级
    • SHARED — 系统内置共享数据集(TPC-H / TPC-DS),只读,属于 Instance 级
  • Schema — Workspace 内数据对象的逻辑命名空间,用于分层管理(如 ods / dwd / ads),同一 Workspace 内不同 Schema 之间可以互相引用,属于 Workspace 级

  • External Schema — 基于 External Catalog 创建,将外部数据系统中的某个 Schema 映射到当前 Workspace,让用户用标准 SQL 直接查询外部数据,无需搬运,属于 Workspace 级

数据表

数据表是存储和处理数据的核心对象,均属于 Schema 级

  • 普通表 — 列式存储的结构化数据表,支持 INSERT / UPDATE / DELETE,是数仓各层的基础存储单元
  • Dynamic Table(动态表) — 用 SQL 定义转换逻辑,系统自动增量刷新结果;适合构建 ODS→DWD→ADS 数据流水线,比手工调度任务少写大量胶水代码
  • 视图 — 虚拟表,不存储数据,查询时动态计算;适合封装复杂 SQL、控制列级权限
  • 物化视图 — 预计算并物理存储查询结果;适合高频执行的固定聚合查询,以存储换查询速度
  • 外部表 — 数据保留在外部系统(Delta Lake、Hudi、Kafka 等),Lakehouse 只管理元数据;适合不想搬数据、直接查询原始存储的场景
  • 语义视图 — 将多表 JOIN 和聚合逻辑封装为业务语义层,BI 工具和 AI Agent 通过语义视图访问数据,屏蔽底层表结构复杂度

文件存储

文件存储对象属于 Schema 级,用于管理非结构化数据和对象存储文件:

  • Volume — 文件存储挂载点,Pipe 从 Volume 读取文件写入表,External Function 可读取 Volume 中的模型文件
    • 内部 Volume — User Volume(用户个人空间)和 Table Volume(表关联存储),随实例自动创建
    • 外部 Volume — 挂载已有的对象存储桶(OSS / COS / S3),数据留在原位,Lakehouse 通过 Storage Connection 访问

连接对象

连接对象属于 Workspace 级,集中存储第三方服务的认证凭据,避免在 SQL 中硬编码密钥:

  • Connection — 安全存储第三方服务的身份认证信息,权限由 Workspace 管理员控制
    • API Connection — 存储云函数的调用凭据,供 External Function 调用阿里云 FC、腾讯云 SCF 等
    • Storage Connection — 存储对象存储的访问密钥,供外部 Volume 和外部表使用(OSS、COS、S3)
    • Catalog Connection — 存储外部元数据服务的连接信息,供 External Catalog 连接 Hive Metastore 等

数据管道与变更捕获

数据管道对象属于 Schema 级,负责数据的自动流转和变更追踪:

  • Pipe — 持续监听 Volume 或 Kafka,将新到达的文件 / 消息自动写入目标表;适合替代手工轮询脚本,实现文件落库的全自动化
  • Table Stream — 记录表上发生的增量变更(INSERT / UPDATE / DELETE)的游标对象,不存储数据本身;下游 Dynamic Table 或任务消费 Stream 实现 CDC 驱动的增量计算

索引

索引属于 Schema 级,在表上建立辅助数据结构,加速过滤条件命中,不改变数据的物理存储方式:

  • Bloomfilter 索引 — 适合等值查询(
    =
    =
    IN
    IN
    ),极低的存储开销换取大幅减少不必要的 Block 读取
  • 倒排索引 — 适合全文检索和关键词匹配,支持中文分词
  • 向量索引 — 适合语义相似度搜索,支持 ANN(近似最近邻)加速向量检索

分区与分桶

分区与分桶属于 Schema 级,决定数据的物理组织方式,建表时指定,影响查询时的数据扫描范围:

  • 分区 — 按时间或业务字段将数据物理分组;查询时自动跳过不涉及的分区,是大表查询性能的首选优化手段
  • 分桶 — 按指定列哈希分桶,将相同 Key 的数据聚合到同一 Bucket;显著提升 Join 和聚合场景下的本地化计算比例

函数

函数对象属于 Schema 级

  • 自定义函数 — 用 SQL 或代码封装可复用的计算逻辑,在任意查询中像内置函数一样调用
    • SQL Function — 用 SQL 表达式定义,在引擎内执行,适合封装业务规则、计算公式等纯 SQL 逻辑
    • External Function — 将外部 HTTP 服务注册为 SQL 函数,适合调用 LLM 做文本处理、调用视觉服务做图像识别等 AI 增强计算场景

同义词

同义词对象属于 Schema 级

  • 同义词 — 为其他 Schema 中的对象创建本地别名;ADS 层引用 DIM 层的维表时,用同义词避免在查询中写完整的三段式路径(
    workspace.schema.table
    workspace.schema.table

数据共享

数据共享对象属于 Instance 级

  • Share — Provider 实例将指定表或视图授权给同云同服务区的 Consumer 实例;Consumer 直接读取 Provider 的原始数据,无数据复制、无存储成本、无同步延迟。不支持跨云或跨服务区共享

Studio 对象

Studio 对象属于 Workspace 级,是 Lakehouse 内置的数据开发和调度环境,与 SQL 数据对象共享同一个 Workspace 的用户体系和权限管控:

  • SQL 任务 — 在 Studio IDE 中编写和调度 SQL 数据加工逻辑,支持依赖编排和定时触发
  • Python / Shell 任务 — 运行自定义脚本,处理 SQL 无法覆盖的复杂逻辑
  • 数据同步任务 — 可视化配置 40+ 种数据源的实时 CDC 同步或离线批量同步,无需写代码;底层使用同步型 VCluster(Integration VC)执行
  • 工作流(组合任务) — 将多个任务编排为有依赖关系的 DAG,统一调度和监控

计算资源

计算资源对象属于 Workspace 级

  • VCluster(计算集群) — 弹性计算资源池,按需启停,不用时不计费;同一 Workspace 内可创建多个 VCluster 隔离不同负载
    • 通用型(GP VC):适合混合 ETL 和查询负载
    • 分析型(AP VC):针对大规模 OLAP 查询优化,适合 BI 和即席分析
    • 同步型(Integration VC):专为实时 CDC 同步任务设计,低延迟写入

安全策略

安全策略对象用于保护数据安全和控制访问:

  • 网络策略 — 基于 IP 的访问控制(白名单 / 黑名单),在实例入口拦截非授权来源,属于 Instance 级
  • 动态脱敏策略 — 对指定列按用户角色动态替换敏感值(如手机号显示为
    138****8888
    138****8888
    ),查询结果自动脱敏,原始数据不变,属于 Schema 级(绑定到表列)

身份与权限

用户采用两层体系:在实例级创建,在工作空间级授权使用。

  • 用户 — 在账户控制台创建,属于 Instance 级;创建后默认无任何数据权限,需加入工作空间并被授予角色后才能使用其中资源
  • 角色 — 权限集合,通过角色批量授权,简化权限管理
    • Instance Role — 实例级角色,作用于整个服务实例(如
      instance_admin
      instance_admin
      instance_user
      instance_user
      ),属于 Instance 级
    • Workspace Role — 工作空间级角色,仅作用于特定工作空间(如
      workspace_admin
      workspace_admin
      workspace_dev
      workspace_dev
      ),属于 Workspace 级

表的高级特性

以下是表级别的可配置特性,不是独立的对象类型:

  • Time Travel — 访问表的历史版本数据,恢复误删 / 误改;通过
    TIMESTAMP AS OF
    TIMESTAMP AS OF
    查询任意历史时间点的数据
  • 数据生命周期管理 — 为表或分区设置过期策略,自动回收过期数据,控制存储成本

典型架构模式

多云 · 多 Region · 多实例

无论部署在哪个云、哪个 Region,每个 Lakehouse 实例对外呈现完全一致的 SQL 语法、对象模型、API 和权限体系。业务团队切换部署环境不需要重写任何代码。

每个云厂商的每个 Region 可以独立部署一个或多个 Lakehouse 实例,实例之间完全隔离,各自拥有独立的计算、存储、元数据和访问控制。

目前支持的云厂商和 Region:

云厂商Region
阿里云华东2(上海)、华北2(北京)、新加坡
腾讯云华北(北京)、华东(上海)、华南(广州)
AWS华北(北京)、新加坡

适用场景:多地容灾部署、海外业务独立实例、合规要求数据不出境。


同一实例多 Workspace — 业务线隔离

一个实例下可以创建多个 Workspace,不同业务线使用独立的 Workspace,实现用户、权限、计算集群和数据对象的完全隔离。Workspace 之间默认不互通,跨 Workspace 访问需要显式授权。

这种模式的核心价值是隔离:数据平台团队的 ETL 任务不会影响 BI 团队的查询性能;算法团队的实验性操作不会误改生产数据;不同业务线的数据权限互不干扰。

典型划分方式

  • 数据平台 Workspace:数据工程师负责,运行 ETL 和 CDC 同步任务,拥有写权限
  • 业务分析 Workspace:分析师和 BI 团队,只读权限,连接 BI 工具,使用独立的分析型 VCluster
  • AI / ML Workspace:算法工程师,运行向量检索和 LLM 推理任务,使用 AI 专属 VCluster

同一 Workspace 多 Schema — 数仓分层

同一个 Workspace 内通过 Schema 实现数仓分层,每层数据对象独立管理,层间通过 Dynamic Table 自动增量刷新。这是云器 Lakehouse 推荐的数仓建设模式:用 Schema 划分层次,用 Dynamic Table 替代手工调度,数据流水线自动运转。

标准分层

Schema定位主要对象
ods
ods
原始数据层,贴源存储Table、Pipe、Table Stream、External Table
dwd
dwd
明细数据层,清洗加工Dynamic Table、Partition、Dynamic Mask
dws
dws
汇总数据层,聚合指标Dynamic Table、Materialized View、Bloomfilter Index
ads
ads
应用数据层,直接对外Table、View、Semantic View、Synonym
dim
dim
维度层,跨层复用Table(缓慢变化维)、Table Stream、Synonym

同云同实例跨账号零复制数据共享

通过 Share 对象,Provider 实例可以将表或视图实时共享给同云同服务区的 Consumer 实例,Consumer 直接查询 Provider 的原始数据,无需复制,无存储成本,无同步延迟。

这种模式适合集团内部跨子公司共享数据、数据服务商向客户开放数据集等场景。Consumer 只有读权限,无法修改 Provider 的数据;Provider 随时可以撤销授权。

约束:仅支持同一云厂商、同一服务区内跨实例共享,不支持跨云或跨服务区。

操作流程

-- Provider:创建共享对象并授权 CREATE SHARE my_share; ALTER SHARE my_share ADD TABLE ads.order_summary; ALTER SHARE my_share ADD INSTANCE consumer_instance_id; -- Consumer:基于 Share 创建只读 Schema 并查询 CREATE SCHEMA shared_data FROM SHARE provider_instance.my_share; SELECT * FROM shared_data.order_summary;


对象关系速查

场景涉及对象
数据入湖(文件)Volume → Pipe → 表
数据入湖(数据库 CDC)Connection → 实时同步任务(Studio)→ 表
数据加工(增量)表 → Dynamic Table → 表
数据加工(CDC 消费)表 → Table Stream → Dynamic Table(或任务)→ 表
联邦查询(不搬数据,原地加速)External Catalog / External Schema → 查询 — 实施指南
数据共享Share → 同云同服务区跨实例访问(不支持跨云/跨服务区)
查询加速物化视图 / 索引 / 分区 → 表
AI 增强分析向量索引 + 倒排索引 + 语义视图
联系我们
预约咨询
微信咨询
电话咨询
邮件咨询