External Catalog
External Catalog 是 Lakehouse 的联邦查询入口,将外部数据系统(Hive、Databricks、Snowflake 等)的元数据目录映射到 Lakehouse,让你用标准 SQL 直接查询外部数据,无需复制数据。
与 External Schema 的区别:External Catalog 是独立的顶层目录,用三层命名
catalog.schema.table 访问;External Schema 是挂载到当前工作空间的 Schema,用两层命名 schema.table 访问,更适合将 Hive 数据库融入现有工作空间。详见组织层级。
支持的数据源
| 数据源 | 连接方式 |
|---|---|
| Apache Hive | Hive Metastore URIs |
| Databricks Unity Catalog | Databricks API |
| Iceberg REST Catalog | Iceberg REST API |
| Snowflake Open Catalog | Iceberg REST API + OAuth |
使用场景
- 跨平台联邦查询:同时查询 Lakehouse 本地数据和 Hive/Databricks 中的数据,无需 ETL
- 数据湖原地加速:数据保留在 OSS/HDFS,用 Lakehouse 替代 Spark/Hive 做 ETL 或替代 Presto/Trino 做 Ad hoc 查询
- 渐进式迁移:迁移过程中通过 External Catalog 保持业务连续性,验证数据一致性后再切换
权限
目前创建的 External Catalog 只有
instance_admin 角色可以查询。
相关文档
- 湖上原地加速方案实施指南 — POC 快速验证,不搬数据替换 Spark/Hive 和 Presto/Trino
- External Catalog 联邦查询 — 详细使用指南、操作示例、架构原理
- 创建 External Catalog — CREATE EXTERNAL CATALOG 语法
- 创建 Hive Catalog — Hive 连接配置
- External Schema — 将外部 Hive 数据库挂载到工作空间
- 组织层级 — External Catalog vs External Schema 选型说明
联系我们
