入门指南:如何快速运行一条SQL
适用场景
Lakehouse提供了一体化的引擎来支持数据的处理加工分析,其开发语言为SQL语言。本文概要介绍如何通过Lakehouse Studio的任务开发功能模块快速编写和运行一条SQL语句来进行查询分析。
前置阅读
在阅读本指南之前,建议完成以下文档的阅读和理解:
操作指南
如果要快速在界面运行一个SQL,需要使用到Lakehouse Studio的数据开发模块,有两种方式可以使用:
方式一:基于样例SQL和样例数据来运行
产品中内置了开箱即用的样例代码和与之配套的样例数据。在页面导航,点击“开发”进入数据开发界面后即可看到 Tpch_100g
文件夹下的样例代码,这些样例代码演示了如何基于 Tpch_100g 样例数据来编写SQL进行快速查询分析,如下图所示:
双击一个样例代码文件打开后,点击页面右上角的“运行”按钮,即可触发SQL的执行、并在执行完成后,在页面右下方可以查看执行结果和日志。
请特别注意页面右上角的集群选项,“集群”是“计算集群”的简称,是Lakehouse提供算力的核心概念,可参考此文档进行详细了解。工作空间创建后,会默认初始化两个集群:名为 DEFAULT
的通用型集群和名为 DEFAULT_AP
的分析型集群。这两类集群面向不同的作业负载有对应的优化:
-
通用型(GENERAL PURPOSE,简称GP):适用于处理离线作业,作业之间共享计算资源,新旧作业采用公平调度方式分配计算资源。适用于周期定时调度任务来处理大批量数据。
-
分析型(ANALYTICS PURPOSE,简称AP):具备多计算实例和自动弹缩功能,适合处理在线和高并发作业。如果您想体验更强的数据查询性能,请选择此类型的集群。此外,AP集群会对数据进行智能缓存,经过第一次查询后,后续查询的速度会更快,下图展示了这个差异性:
您也可以通过阅读 使用样例数据快速开始查询分析,进一步了解如何基于样例数据进行查询分析。
方式二:自己编写SQL并运行
除使用样例代码和样例数据之外,您也可以自己编写SQL并运行。在页面导航,点击“开发”进入数据开发界面,在“任务”下,通过新建菜单,选择“SQL脚本”来创建一个SQL任务文件。
在任务文件中,使用以下步骤来编写和运行SQL:
-
在页面上选择正确的数据Schema。编写代码时,对于该Schema下的表的引用直接只写表名即可,否则需要使用schema.table两段或者workspace.schema.table三段格式来引用表。通常使用系统默认Schema即可。
-
在代码编辑区域填写需要运行的SQL。
-
选择恰当的计算集群类型。对于ad-hoc临时查询,或者需要获得更快的查询响应速度,建议选择分析型(AP)的集群。通用型(GP)集群适合大批量数据的离线周期调度的处理分析。
-
点击左侧的运行按钮或右上角的运行按钮来执行代码。左侧按钮只执行鼠标所在的代码块。右上角的按钮默认执行全部代码;也可以选择部分代码后,点击右上角的运行按钮来执行。
-
运行完成后,在页面下方区域可以查看运行的结果、耗时和运行日志等信息:
-
在编辑框编写代码时,也可以切换到数据Tab,来快速浏览和使用数据。找到到所需使用的表后,在操作菜单中可快速插入表的名称、字段名称或者直接生成查询样例SQL:
其它常用操作
在“运行”操作之外,系统还提供如下图所示的功能:
- 全局代码检索:通过代码关键字来查找文件
- 保存:保存当前文件修改的内容
- 格式化:对当前代码进行格式化排版
- 版本历史:可以查看文件的历史版本,并支持对比和回滚
- 查找:在当前文件内部通过关键字查找代码片段
- 快捷键:展示支持的常用快捷键
限制说明
- 权限控制:需要具备
工作空间管理员角色(workspace_admin)
或者工作空间开发角色(workspace_dev)
的用户,才能使用任务开发功能并运行SQL。
相关文档
- 您可以阅读 任务开发 来了解如何深度使用任务开发模块提供的详细功能。