入门指南:如何快速运行一条SQL

适用场景

Lakehouse 提供了一体化的引擎来支持数据的处理、加工和分析,其开发语言为 SQL。本文概要介绍如何通过Lakehouse Studio的任务开发功能模块快速编写和运行一条SQL语句来进行查询分析。

前置阅读

在阅读本指南之前,建议完成以下文档的阅读和理解:

操作指南

如果要快速在界面运行一条 SQL,需要使用 Lakehouse Studio 的数据开发模块,有两种方式:

方式一:基于样例SQL和样例数据来运行

产品中内置了开箱即用的样例代码和与之配套的样例数据。在页面导航,点击“开发”进入数据开发界面后即可看到 Tpch_100g 文件夹下的样例代码,这些样例代码演示了如何基于 Tpch_100g 样例数据来编写SQL进行快速查询分析,如下图所示:

双击一个样例代码文件打开后,点击页面右上角的“运行”按钮,即可触发 SQL 的执行。执行完成后,在页面右下方可以查看执行结果和日志。

请特别注意页面右上角的集群选项。“集群”是“计算集群”的简称,是 Lakehouse 提供算力的核心概念,可参考 此文档 进行详细了解。工作空间创建后,会默认初始化两个集群:名为 DEFAULT 的通用型集群和名为 DEFAULT_AP 的分析型集群。这两类集群针对不同的作业负载有对应的优化:

  • 通用型(GENERAL PURPOSE,简称 GP):适用于处理离线作业,作业之间共享计算资源,新旧作业采用公平调度方式分配计算资源。适用于周期定时调度任务来处理大批量数据。

  • 分析型(ANALYTICS PURPOSE,简称 AP):具备多计算实例和自动弹缩功能,适合处理在线和高并发作业。如果您想体验更强的数据查询性能,请选择此类型的集群。此外,AP 集群会对数据进行智能缓存。经过第一次查询后,后续查询的速度会更快。下图展示了这个差异:

您也可以通过阅读 使用样例数据快速开始查询分析,进一步了解如何基于样例数据进行查询分析。

方式二:自己编写SQL并运行

除了使用样例代码和样例数据之外,您也可以自己编写 SQL 并运行。在页面导航栏,点击“开发”进入数据开发界面,在“任务”下,通过新建菜单,选择“SQL脚本”来创建一个 SQL 任务文件。

在任务文件中,可按以下步骤编写和运行 SQL:

  1. 在页面上选择正确的数据 Schema。编写代码时,对于该 Schema 下的表的引用,直接写表名即可;否则,需要使用 schema.table 两段式或 workspace.schema.table 三段式格式来引用表。通常使用系统默认 Schema 即可。

  2. 在代码编辑区域填写需要运行的 SQL。

  3. 选择恰当的计算集群类型。对于 ad-hoc 临时查询,或者需要获得更快的查询响应速度,建议选择分析型(AP)集群。通用型(GP)集群适合大批量数据的离线、周期性调度任务的处理分析。

  4. 点击左侧的运行按钮或右上角的运行按钮来执行代码。左侧按钮只执行光标所在的代码块。右上角的按钮默认执行全部代码;也可以先选择部分代码,然后点击右上角的运行按钮来执行所选部分。

  5. 运行完成后,在页面下方区域可以查看运行结果、耗时和运行日志等信息:

  6. 在编辑框编写代码时,也可以切换到“数据”标签页,来快速浏览和使用数据。找到所需使用的表后,在操作菜单中可快速插入表的名称、字段名称,或者直接生成查询样例 SQL:

其它常用操作

除了“运行”操作,系统还提供如下图所示的功能:

  1. 全局代码检索:通过代码关键字来查找文件
  2. 保存:保存当前文件修改的内容
  3. 格式化:对当前代码进行格式化排版
  4. 版本历史:可以查看文件的历史版本,并支持对比和回滚
  5. 查找:在当前文件内部通过关键字查找代码片段
  6. 快捷键:展示支持的常用快捷键

限制说明

  • 权限控制:需要具备 工作空间管理员角色(workspace_admin) 或者 工作空间开发角色(workspace_dev) 权限的用户,才能使用任务开发功能并运行 SQL。

相关文档

  • 您可以阅读 任务开发 来了解如何深度使用任务开发模块提供的详细功能。

下一步建议

联系我们
预约咨询
微信咨询
电话咨询