概述

External Catalog 是Lakehouse中的一个安全对象,它映射了外部数据系统中的数据库,使得用户可以在 Lakehouse中对该数据系统执行只读查询。通过External Catalog,用户可以利用 Lakehouse的查询能力访问和分析存储在外部数据库中的数据。

External Catalog使用场景

  • 统一元数据管理:将多个数据源的元数据统一管理,简化数据治理。
  • 数据联邦查询:使用 External Catalog,用户可以在不同的数据源之间进行联合查询,如同它们是同一个数据库内的数据一样。 通过联邦查询,用户能够实时访问和分析存储在外部系统中的数据,无需等待数据同步。
  • 数据导入:将分散在不同数据源的数据导入 Lakehouse,构建统一的数据湖,便于进行大数据分析和机器学习。将历史数据或不常访问的数据保留在外部存储中,通过 External Catalog 导入到 Lakehouse,优化数据仓库的存储和性能。

使用 External Catalog

  1. 创建连接:首先,需要在 Catalog Connection 中创建一个连接(connection),这个连接是一个安全对象,它指定了用于访问外部数据库系统的路径和认证信息。
  2. 创建外部目录:使用已创建的连接,可以创建一个外部目录(External Catalog)。这个目录在 External Catalog 中作为安全对象存在,镜像了外部数据系统中的数据库结构。
  3. 执行查询:一旦外部目录被创建,用户就可以在Lakehouse中编写 SQL 查询。

支持的数据源

Lakehouse 通过多源数据目录(Multi-Catalog)功能,支持了Apache Hive连接访问

EXTERNAL CATALOG相关使用语法

权限

目前创建的CATALOG只有instance admin角色可以查询

使用案例

参考创建HIVE CATALOG

联系我们
预约咨询
微信咨询
电话咨询