数据目录(Data Catalog)
概述
数据目录,又称为数据资产地图,提供强大的数据检索和展示功能,旨在帮助用户更轻松地查找、理解和使用数据。它支持两种模式:数据搜索模式和数据管理模式。数据搜索模式允许用户直接搜索数据,而数据管理模式则通过目录结构查找和管理数据表。通过数据目录,您可以更高效地管理和利用数据资源。
- 资产明细:展示当前租户的总数据资产。
- 搜索框:点击进入数据搜索结果页
- 数据管理:点击进入数据管理页面
- 上传数据:轻量级本地文件上传入口
- 最近浏览/最新创建:当前租户下最近浏览/创建的top5条数据表信息,点击可直接进入表详情页面
数据搜索
在数据目录首页的搜索框中输入关键字,即可进入搜索结果页面。搜索功能支持对象类型(Table、View、Materialized View)的名称和描述信息搜索。搜索结果页面提供多种筛选条件,包括对象类型、工作空间/Schema、创建时间、负责人等,以及名称、创建时间、更新时间等排序选项。
在搜索结果的筛选上:支持按照对象类型、所在工作空间/schema、创建时间、负责人进行过滤;同时支持按照名称、创建时间、更新时间进行过滤。
数据管理
数据管理页面以目录形式展示当前用户在服务实例下有权限管理的所有数据资产。从首页点击“数据管理”,进入数据管理页面,展示当前服务下有权限的工作空间列表。
工作空间层级
在工作空间层级下,您可以看到该空间下的所有Schema列表。点击左侧目录树可以展开层级查看。顶部区域展示工作空间的基本信息,如来源、创建时间/修改时间、负责人等。信息区域呈现具体的Schema信息,包括名称、创建时间、更新时间、责任人等。
每个工作空间下都会有一个默认的information_schema。
工作空间下的shema包括内部创建、外部创建两种类别
支持用户在工作空间下通过可视化的方式创建schema信息。点击标题旁的问号,可查看创建对象的帮助文档。
Schema层级
点击具体的Schema后,下钻到该Schema的详情页面。在Schema层级下,可看到Schema下管理的所有对象信息,同时具体的对象通过对象类别进行管理。当前系统内支持的对象类型有Table、View、Materialized View三种类别。
在Schema下支持直接创建对象,支持脚本创建和可视化创建两种方式。系统内置了不同对象的模板,帮助用户更好地理解Lakehouse语法。
表详情页
表详情页展示了云器Lakehouse库内的所有表的详情信息、字段信息、数据预览、数据血缘、作业历史、上传等信息。详情页分为两部分,顶部区域显示表名、负责人以及一些表的快捷操作;信息区则包含六大块内容,分别是详情、字段、预览、血缘、作业、上传。
顶部功能区域
顶部区域显示当前表的完整结构(即对应的workspace/schema/表名信息)、行数/存储大小、创建时间/更新时间、责任人等基础信息。顶部区域还提供“上传”功能,支持将本地文件通过上传的方式传至云器Lakehouse平台。
详情
详情页签中展示了当前表的DDL语句,并支持一键复制,同时支持一键进入权限管理页面进行权限授权。
字段
在字段页签中会显示当前表的字段名称、类型、描述等信息,若有主键等信息,还可以显示主键、字段的标准化标签。
预览
在数据预览Tab页,可以预览当前表的100条数据。注意此处有数据权限限制,需要当前登陆用户具备此表的Select权限才可预览。
数据预览需要用户手动选择参与查询的计算集群才能显示出预览数据。
血缘
在数据血缘Tab页,可以查看当前表的上下游依赖关系。此处血缘关系基于产出此表的对应任务的代码解析生成,属于“定义视角”的关系。
点击具体的上游或者下游表节点,可以查看其更详细的信息:
作业
作业Tab下可查看表对应的产出任务的SQL作业。通过点击作业ID,可进一步查看到作业详情。
上传
在上传页签下,展示了当前表通过「上传」功能传入的所有历史记录。