通过样例数据集开始TPCH查询

概述

通过本教程,您将了解到如何利用 Lakehouse 平台内置的样例数据集,无需提前准备数据即可快速使用 SQL 进行查询分析已评估 SQL 功能及性能。

导入脚本

打开控制台 Tutorial 页面中的"Lakehouse教程",选择"使用样例数据快速开始查询分析"课程。根据页面提示导入本次课程需要的脚本文件。

在"开发模块"查看"Tutorial_Run_TPCH_Queries_USING_SQL"目录。

样例数据集

样例数据集由云器平台通过名称为 CLICKZETTA_SAMPLE_DATA 的数据集以共享方式开放给所有账户查询。本教程将以其中的 TPC-H 100gb 数据集为例,介绍如何在 Lakehouse 中快速完成 TPC-H 测试集的查询测试,评估处理性能。

教程步骤

  1. 环境准备:通过样例数据集检查原始数据,创建测试使用的计算集群。
  2. 发起查询:使用 Studio Web 环境创建 SQL 查询完成 22 个 TPC-H SQL 查询。
  3. 变更集群大小:调整集群大小,扩大至之前集群大小的 2 倍。
  4. 发起查询:使用调整大小后的集群再次完成 22 个 TPC-H SQL 查询。
  5. 观察不同集群规格下,查询时延的变化
  6. 清理环境:删除测试使用的计算集群。

通过以上步骤,您将能够评估不同集群规格下 SQL 查询的性能表现。

准备工作

首先,在您登录Lakehouse Web控制台并进入指定的工作空间后。可访问数据模块,检查数据管理下的数据对象列表中”clickzetta_sample_data.tpch_100g“下的相关表是否存在。

其次,我们将为本次测试临时创建一个独立计算集群用于查询分析。您可以通过访问Lakehouse Web控制台的”计算→集群”菜单,通过页面向导新建集群。

同时,您也可以通过SQL命令来创建集群。通过SQL命令操作时,您可以不离开SQL开发上下文,在Ad-hoc或者ETL开发过程中通过SQL命令控制集群创建、扩/缩容、暂停/恢复、销毁动作,往往可以提高计算资源的操作效率。

本教程通过在”开发”模块运行 [Tutorials/Tutorial_Run_TPCH_Queries_USING_SQL/Step01.Preparation] SQL脚本任务创建分析TPCH数据集需要使用的计算集群。

对样例数据进行TPC-H的查询

在"开发"模块打开 [Tutorials/Tutorial_Run_TPCH_Queries_USING_SQL/Step02.Run_TPCH_Queries] SQL脚本文件,将看到TPC-H的22个查询语句已录入,在[集群]下拉列表中选择刚才创建的测试集群,然后选中任务中的全部脚本后点击[运行]按钮进行串行查询。

执行完毕后,可以通过当前SQL Editor运行历史查看本次任务的运行耗时。

如果您希望进行性能测试,可连续执行2次以上的查询,以便计算集群能够充分Cache数据发挥最佳性能。以下是第二次运行,计算集群Cache数据后的运行结果,较第一次无Cache时性能有明显提升。

如果希望22个查询中每个查询的执行详情,可通过访问计算→作业历史,根据查询标签”tpch100g_benchmark”对查询历史进行过滤后查看。

扩大集群规格后查询

通过计算→集群管理页面,您可以对刚才创建的测试集群修改规格大小,从Large修改至XLarge,XLarge规格大小为Large的2倍。

或者在SQL脚本中执行以下命令进行修改:

-- 修改集群大小
alter vcluster TPCH_100GB SET VCLUSTER_SIZE = 'XLARGE';

修改后,使用调整大小后的集群再次进行查询测试。

新扩容出的计算节点充分Cache后,性能会继续提升。 通过作业的运行时间可以观察到,相同的数据规模和查询任务,通过扩大计算集群规格大小,任务的总体运行时间大为缩短。2次执行之后,随着数据cache,能提升查询性能。

环境清理

打开”开发”模块 [Tutorial_Run_TPCH_Queries_USING_SQL->Step03.Clean_Up] SQL脚本文件,执行脚本即可删除本教程测试集群。

联系我们
预约咨询
微信咨询
电话咨询