入门指南:如何快速运行一条SQL

适用场景

Lakehouse提供了一体化的引擎来支持数据的处理加工分析,其开发语言为SQL语言。本文概要介绍如何通过Lakehouse Studio的任务开发功能模块快速编写和运行一条SQL语句来进行查询分析。

前置阅读

在阅读本指南之前,建议完成以下文档的阅读和理解:

操作指南

如果要快速在界面运行一个SQL,需要使用到Lakehouse Studio的数据开发模块,有两种方式可以使用:

方式一:基于样例SQL和样例数据来运行

产品中内置了开箱即用的样例代码和与之配套的样例数据。在页面导航,点击“开发”进入数据开发界面后即可看到 Tpch_100g 文件夹下的样例代码,这些样例代码演示了如何基于 Tpch_100g 样例数据来编写SQL进行快速查询分析,如下图所示:

双击一个样例代码文件打开后,点击页面右上角的“运行”按钮,即可触发SQL的执行、并在执行完成后,在页面右下方可以查看执行结果和日志。

请特别注意页面右上角的集群选项,“集群”是“计算集群”的简称,是Lakehouse提供算力的核心概念,可参考此文档进行详细了解。工作空间创建后,会默认初始化两个集群:名为 DEFAULT 的通用型集群和名为 DEFAULT_AP 的分析型集群。这两类集群面向不同的作业负载有对应的优化:

  • 通用型(GENERAL PURPOSE,简称GP):适用于处理离线作业,作业之间共享计算资源,新旧作业采用公平调度方式分配计算资源。适用于周期定时调度任务来处理大批量数据。

  • 分析型(ANALYTICS PURPOSE,简称AP):具备多计算实例和自动弹缩功能,适合处理在线和高并发作业。如果您想体验更强的数据查询性能,请选择此类型的集群。此外,AP集群会对数据进行智能缓存,经过第一次查询后,后续查询的速度会更快,下图展示了这个差异性:

您也可以通过阅读 使用样例数据快速开始查询分析,进一步了解如何基于样例数据进行查询分析。

方式二:自己编写SQL并运行

除使用样例代码和样例数据之外,您也可以自己编写SQL并运行。在页面导航,点击“开发”进入数据开发界面,在“任务”下,通过新建菜单,选择“SQL脚本”来创建一个SQL任务文件。

在任务文件中,使用以下步骤来编写和运行SQL:

  1. 在页面上选择正确的数据Schema。编写代码时,对于该Schema下的表的引用直接只写表名即可,否则需要使用schema.table两段或者workspace.schema.table三段格式来引用表。通常使用系统默认Schema即可。

  2. 在代码编辑区域填写需要运行的SQL。

  3. 选择恰当的计算集群类型。对于ad-hoc临时查询,或者需要获得更快的查询响应速度,建议选择分析型(AP)的集群。通用型(GP)集群适合大批量数据的离线周期调度的处理分析。

  4. 点击左侧的运行按钮或右上角的运行按钮来执行代码。左侧按钮只执行鼠标所在的代码块。右上角的按钮默认执行全部代码;也可以选择部分代码后,点击右上角的运行按钮来执行。

  5. 运行完成后,在页面下方区域可以查看运行的结果、耗时和运行日志等信息:

  6. 在编辑框编写代码时,也可以切换到数据Tab,来快速浏览和使用数据。找到到所需使用的表后,在操作菜单中可快速插入表的名称、字段名称或者直接生成查询样例SQL:

其它常用操作

在“运行”操作之外,系统还提供如下图所示的功能:

  1. 全局代码检索:通过代码关键字来查找文件
  2. 保存:保存当前文件修改的内容
  3. 格式化:对当前代码进行格式化排版
  4. 版本历史:可以查看文件的历史版本,并支持对比和回滚
  5. 查找:在当前文件内部通过关键字查找代码片段
  6. 快捷键:展示支持的常用快捷键

限制说明

  • 权限控制:需要具备 工作空间管理员角色(workspace_admin) 或者工作空间开发角色(workspace_dev)的用户,才能使用任务开发功能并运行SQL。

相关文档

  • 您可以阅读 任务开发 来了解如何深度使用任务开发模块提供的详细功能。

下一步建议

联系我们
预约咨询
微信咨询
电话咨询