通过样例数据集开始TPCH查询
概述
通过本教程,您将了解到如何利用 Lakehouse 平台内置的样例数据集,无需提前准备数据即可快速使用 SQL 进行查询分析已评估 SQL 功能及性能。
导入脚本
打开控制台 Tutorial 页面中的"Lakehouse教程",选择"使用样例数据快速开始查询分析"课程。根据页面提示导入本次课程需要的脚本文件。
在"开发模块"查看"Tutorial_Run_TPCH_Queries_USING_SQL"目录。
样例数据集
样例数据集由云器平台通过名称为 CLICKZETTA_SAMPLE_DATA 的数据集以共享方式开放给所有账户查询。本教程将以其中的 TPC-H 100gb 数据集为例,介绍如何在 Lakehouse 中快速完成 TPC-H 测试集的查询测试,评估处理性能。
教程步骤
- 环境准备:通过样例数据集检查原始数据,创建测试使用的计算集群。
- 发起查询:使用 Studio Web 环境创建 SQL 查询完成 22 个 TPC-H SQL 查询。
- 变更集群大小:调整集群大小,扩大至之前集群大小的 2 倍。
- 发起查询:使用调整大小后的集群再次完成 22 个 TPC-H SQL 查询。
- 观察不同集群规格下,查询时延的变化
- 清理环境:删除测试使用的计算集群。
通过以上步骤,您将能够评估不同集群规格下 SQL 查询的性能表现。
准备工作
首先,在您登录Lakehouse Web控制台并进入指定的工作空间后。可访问数据模块,检查数据管理下的数据对象列表中”clickzetta_sample_data.tpch_100g“下的相关表是否存在。
其次,我们将为本次测试临时创建一个独立计算集群用于查询分析。您可以通过访问Lakehouse Web控制台的”计算→集群”菜单,通过页面向导新建集群。
同时,您也可以通过SQL命令来创建集群。通过SQL命令操作时,您可以不离开SQL开发上下文,在Ad-hoc或者ETL开发过程中通过SQL命令控制集群创建、扩/缩容、暂停/恢复、销毁动作,往往可以提高计算资源的操作效率。
本教程通过在”开发”模块运行 [Tutorials/Tutorial_Run_TPCH_Queries_USING_SQL/Step01.Preparation] SQL脚本任务创建分析TPCH数据集需要使用的计算集群。
对样例数据进行TPC-H的查询
在"开发"模块打开 [Tutorials/Tutorial_Run_TPCH_Queries_USING_SQL/Step02.Run_TPCH_Queries] SQL脚本文件,将看到TPC-H的22个查询语句已录入,在[集群]下拉列表中选择刚才创建的测试集群,然后选中任务中的全部脚本后点击[运行]按钮进行串行查询。
执行完毕后,可以通过当前SQL Editor运行历史查看本次任务的运行耗时。
如果您希望进行性能测试,可连续执行2次以上的查询,以便计算集群能够充分Cache数据发挥最佳性能。以下是第二次运行,计算集群Cache数据后的运行结果,较第一次无Cache时性能有明显提升。
如果希望22个查询中每个查询的执行详情,可通过访问计算→作业历史,根据查询标签”tpch100g_benchmark”对查询历史进行过滤后查看。
扩大集群规格后查询
通过计算→集群管理页面,您可以对刚才创建的测试集群修改规格大小,从Large修改至XLarge,XLarge规格大小为Large的2倍。
或者在SQL脚本中执行以下命令进行修改:
修改后,使用调整大小后的集群再次进行查询测试。
环境清理
打开”开发”模块 [Tutorial_Run_TPCH_Queries_USING_SQL->Step03.Clean_Up] SQL脚本文件,执行脚本即可删除本教程测试集群。