云器 Lakehouse 基本概念
欢迎使用云器 Lakehouse!本章节将为您详细介绍云器 Lakehouse 中的基本概念,帮助您更好地理解和使用本产品。
账户(Account)
云器的账户代表与云器公司建立商业关系的组织或个人(一般为企业账户),涵盖账户注册、服务开通等行为。账户是您使用云器产品服务、付费、获取服务支持的基本实体对象。在注册时,系统会自动生成全局唯一的账户名,作为您在云器产品中的唯一标识。
- 账户负责充值、出账单、费用支付以及订购/变更云器产品;
- 所有企业或个人在云器产品上开通的服务实例及其资源对象都归属于特定账户。
账户 URL
每个账户都有一个唯一的账户 URL,用于访问管理中心。您需要使用该账户下的有效用户名和密码登录。账户 URL 的格式为:<account_name>.accounts.clickzetta.com
。例如,以下链接中的 0256c297
即为账户名称:0267c297.accounts.clickzetta.com
。
用户(User)
在账户注册成功后,您可以创建多个用户共同使用同一个账户内的资源。不同用户间可以通过权限控制分配可使用的数据和资源。
服务实例(Lakehouse Instance)
Lakehouse 服务实例是云器 Lakehouse 产品服务的载体。开通 Lakehouse 服务时,您需要根据指定的云服务商和地域,在您的账户下创建生成服务实例。一个账户下可以创建一个或多个服务实例(当前阶段默认开放单个服务实例的创建)。
服务实例内采用统一元数据管理数据对象、计算资源、作业任务,并在统一权限体系下使用数据集成、开发调度、运维监控、数据目录等工具进行应用构建和数据管理。服务实例具备区域属性,其计算、数据和其他服务资源均在此云服务商的区域内。不同服务实例间默认相互隔离。
工作空间(Workspace)
工作空间是用于组织 Lakehouse 资源对象(数据对象、计算资源、用户等),并提供配套的数据开发能力(数据集成、数据开发、数据运维)的逻辑对象。您可以在一个服务实例下创建多个工作空间。工作空间之间默认隔离,用户需加入工作空间,才可使用工作空间内的对象。通过跨工作空间授权的方式,实现同一实例下不同工作空间内对象的共享。如何管理和使用工作空间,可以参考此文档。
计算资源(Virtual Cluster)
计算资源由多实例虚拟计算集群和运行在集群中的计算服务构成,为您的作业提供计算环境,包括 CPU、内存以及临时存储。详见此文档。
数据源(Data Source)
数据源保存了数据存储的链接串信息,例如数据库的地址、访问用户名、密码等。数据源可用于配置数据同步任务或进行数据分析时引用、消费数据。详见此文档。
Schema
在工作空间内,Schema 是一组数据库对象的命名空间,包括表、视图等。您可以在一个工作空间内包含多个命名各异的 Schema 对象。
表(Table)
表是格式化的二维数据表格。
视图(View)
视图是一种虚拟存在的表,不在数据库中实际存在。在使用时,视图会动态生成。
物化视图(Materialized View)
物化视图是一种特殊的视图,与普通视图不同,物化视图在数据库中实际存在,并占用存储资源。详见此文档。
Lakehouse Studio
Lakehouse Studio是一个以Web方式提供的集成开发和管理工具集合,是Lakehouse原生提供的图形化操作界面,旨在为用户提供丰富的一站式功能和直观便捷的操作体验。通过浏览器登录并进入Lakehouse Studio后,可以在界面上轻松地操作和使用各项产品功能,比如上传导入或同步数据、开发SQL任务、调度运行、配置监控告警、进行运维操作、管理用户和权限等,相较于基于JDBC协议连接和CLI命令行工具访问,可以使用到更为丰富的原生功能,并且更加方便易用。详见此文档。
任务开发
任务开发是一站式的集成大数据开发环境,您可以进行任务开发、调试运行、配置调度以及提交发布等操作,完成整个大数据汇聚加工处理分析的关键流程。在左侧导航菜单中,点击“开发”后可以进入 Web IDE 的主界面。详见此文档。
任务组
任务组是开发板块内用以管理一组任务列表的虚拟业务管理组。您可以使用任务组对一系列任务进行组织编排,包括添加/创建任务节点、创建任务节点之间的依赖关系,配置任务组参数、统一批量提交的操作。详见此文档。
运维中心
运维中心提供对任务和实例运维管理操作。运维中心管控的任务包括手动触发执行的任务和周期调度的任务,及其对应的实例,进行集中式管理。详见此文档。
数据目录
数据目录是连接数据提供者和数据消费者的桥梁。数据目录基于表的元数据信息构建目录,并提供全局检索和过滤功能,便于快速查找表和查看表的详情信息,为数据的消费使用提供协助。详见此文档。
工作流(Workflow)
工作流是由一个或多个有依赖关系相连的任务组成的数据加工作业流对象。工作流指定了任务的运行环境和资源。作业可以按需执行、周期性执行或被事件触发执行。
工作流实例(Workflow Instance)
当工作流任务被触发执行时,会生成工作流实例。工作流实例包含实例化的时间戳和任务状态,由调度系统根据触发条件创建。
任务(Task)
任务是原子的数据开发任务,如数据同步任务、SQL 任务、Python 任务、SHELL 任务等。任务以文件方式创建、保存和组织管理。
Lakehouse SQL 任务
指 Lakehouse 中通过 Web 端数据开发功能或 CLI、JDBC 连接等生成的 SQL 查询任务。如何开发和调度一个Lakehouse SQL任务,可以参考此文档。
同步任务
指数据同步类型的任务。用户通过配置同步数据源和目标数据表生成同步任务。同步任务也消耗计算资源,并进行计量。同步任务包含离线同步任务和实时同步任务两大类。详见此文档。
Python任务
Python任务是指可以编写和运行Python代码的任务类型。对于很多数据分析和处理场景,特别是对于BI+AI的分析场景,通过Python和SQL的结合,可以极大提高数据分析和处理的效率。 在云器Lakehouse里,通过提供Python脚本的任务类型,来运行Python代码。详见此文档。
JDBC任务
JDBC任务是数据开发中的一类重要任务节点,通过它可以编写SQL代码来连接支持JDBC协议的数据源,实现数据的增删改查等操作。详见此文档。
任务实例(Task Instance)
数据开发任务,在手动执行或定时调度执行时生成的具体执行实例。
通过此文档可以查看更多的概念和对象模型设计。