内置示例数据集

clickzetta_sample_data
clickzetta_sample_data
是云器 Lakehouse 通过数据共享机制内置的公共数据集,每个租户开箱即用,无需申请、无需导入、不占用你的存储配额。

直接在 SQL 中三段式引用即可查询:

SELECT * FROM clickzetta_sample_data.tpch_100g.orders LIMIT 10;

包含 5 个 schema,覆盖性能基准测试、业务分析练习和 AI 向量检索等场景:

Schema数据内容规模
tpch_100g
tpch_100g
TPC-H 标准基准,供应链订单数据100GB,lineitem 6 亿行
tpcds_10tb
tpcds_10tb
TPC-DS 标准基准,零售多渠道销售数据10TB,store_sales 288 亿行
ecommerce_events_history
ecommerce_events_history
电商用户行为事件流历史表 1.1 亿行,实时表 3.7 亿行
nyc_taxi_tripdata
nyc_taxi_tripdata
纽约市网约车行程记录14.9 亿行
clickzetta_doc_kb
clickzetta_doc_kb
云器产品文档向量知识库含 1024 维 embedding

tpch_100g

数据来源TPC-H 是数据库行业标准基准测试,模拟供应链场景,包含订单、零件、供应商、客户等 8 张表。

规模:100GB,共 8 张表。

表名行数说明
lineitem
lineitem
6 亿订单明细,最大表
orders
orders
1.5 亿订单主表
customer
customer
1500 万客户信息
supplier
supplier
100 万供应商信息
part
part
200 万零件信息
partsupp
partsupp
800 万零件供应关系
nation
nation
25国家维度
region
region
5地区维度

适用场景

  • 测试 SQL 查询性能,对比不同 VCluster 规格的响应时间
  • 学习多表 JOIN、聚合、窗口函数等 SQL 语法
  • 验证索引效果(Bloomfilter、倒排索引)

示例查询:统计各地区的年度收入(TPC-H Q5)

SELECT n.n_name, SUM(l.l_extendedprice * (1 - l.l_discount)) AS revenue FROM clickzetta_sample_data.tpch_100g.customer c JOIN clickzetta_sample_data.tpch_100g.orders o ON c.c_custkey = o.o_custkey JOIN clickzetta_sample_data.tpch_100g.lineitem l ON o.o_orderkey = l.l_orderkey JOIN clickzetta_sample_data.tpch_100g.supplier s ON l.l_suppkey = s.s_suppkey JOIN clickzetta_sample_data.tpch_100g.nation n ON c.c_nationkey = n.n_nationkey JOIN clickzetta_sample_data.tpch_100g.region r ON n.n_regionkey = r.r_regionkey WHERE r.r_name = 'ASIA' AND o.o_orderdate >= '1994-01-01' AND o.o_orderdate < '1995-01-01' GROUP BY n.n_name ORDER BY revenue DESC;

tpcds_10tb

数据来源TPC-DS 是比 TPC-H 更复杂的零售业基准测试,模拟多渠道(门店、目录、网络)销售场景,包含 24 张表,99 个标准查询。

规模:10TB,共 24 张表。

表名行数说明
store_sales
store_sales
288 亿门店销售明细
catalog_sales
catalog_sales
144 亿目录销售明细
web_sales
web_sales
72 亿网络销售明细
store_returns
store_returns
28.8 亿门店退货记录
inventory
inventory
13.1 亿库存记录
customer
customer
6500 万客户信息
item
item
40.2 万商品信息
date_dim
date_dim
7.3 万日期维度
其他 16 张维度表(门店、促销、地址等)

适用场景

  • 大规模压测,验证 10TB 级别查询性能
  • 测试复杂多表 JOIN 和子查询的执行计划
  • 对比不同 VCluster 规格在重型查询下的表现

示例查询:统计各门店的季度销售额

SELECT s.s_store_name, d.d_year, d.d_qoy, SUM(ss.ss_net_paid) AS total_sales FROM clickzetta_sample_data.tpcds_10tb.store_sales ss JOIN clickzetta_sample_data.tpcds_10tb.store s ON ss.ss_store_sk = s.s_store_sk JOIN clickzetta_sample_data.tpcds_10tb.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk WHERE d.d_year = 2001 GROUP BY s.s_store_name, d.d_year, d.d_qoy ORDER BY d.d_qoy, total_sales DESC LIMIT 20;

ecommerce_events_history

数据来源:来自 Kaggle 公开数据集,记录一家多品类电商平台的用户行为事件,包含浏览、加购、购买等操作。

规模:2 张表。

表名行数说明
ecommerce_events_multicategorystore
ecommerce_events_multicategorystore
1.1 亿历史事件快照表
ecommerce_events_multicategorystore_live
ecommerce_events_multicategorystore_live
3.7 亿持续更新的实时事件表,开启了
change_tracking
change_tracking
,可创建 Table Stream

字段说明

字段类型说明
event_time
event_time
varchar事件发生时间
event_timestamp
event_timestamp
timestamp_ltz事件时间戳
event_type
event_type
varchar事件类型:view / cart / purchase
product_id
product_id
varchar商品 ID
category_id
category_id
varchar品类 ID
category_code
category_code
varchar品类路径,如
electronics.smartphone
electronics.smartphone
brand
brand
varchar品牌
price
price
decimal(10,2)商品价格
user_id
user_id
varchar用户 ID
user_session
user_session
varchar会话 ID
event_date
event_date
date事件日期(分区键)

适用场景

  • 漏斗分析(浏览 → 加购 → 购买转化率)
  • 用户留存和复购分析
  • 品类和品牌销售排行
  • 基于 Table Stream 的增量数据处理练习

示例查询:统计各事件类型的转化漏斗

SELECT event_type, COUNT(DISTINCT user_id) AS users, COUNT(*) AS events FROM clickzetta_sample_data.ecommerce_events_history.ecommerce_events_multicategorystore GROUP BY event_type ORDER BY events DESC;

nyc_taxi_tripdata

数据来源纽约市出租车和豪华轿车委员会(TLC) 公开的网约车行程数据,包含 Uber、Lyft 等平台(FHVHV:For-Hire Vehicle High Volume)的行程记录。

规模:1 张表,14.9 亿行。

主要字段

字段类型说明
hvfhs_license_num
hvfhs_license_num
varchar平台牌照号(HV0003=Uber,HV0005=Lyft)
pickup_datetime
pickup_datetime
timestamp_ltz上车时间
dropoff_datetime
dropoff_datetime
timestamp_ltz下车时间
trip_miles
trip_miles
double行程里程(英里)
trip_time
trip_time
bigint行程时长(秒)
base_passenger_fare
base_passenger_fare
double乘客基础费用
tips
tips
double小费
driver_pay
driver_pay
double司机实收
shared_request_flag
shared_request_flag
varchar是否拼车请求(Y/N)
wav_request_flag
wav_request_flag
varchar是否请求无障碍车辆(Y/N)

适用场景

  • 时序聚合分析(按小时、按星期统计行程量)
  • 大表聚合性能测试
  • 平台对比分析(Uber vs Lyft)
  • 地理数据分析(结合上下车区域字段)

示例查询:按平台统计平均行程里程和费用

SELECT hvfhs_license_num, COUNT(*) AS trips, ROUND(AVG(trip_miles), 2) AS avg_miles, ROUND(AVG(trip_time) / 60, 1) AS avg_minutes, ROUND(AVG(base_passenger_fare), 2) AS avg_fare FROM clickzetta_sample_data.nyc_taxi_tripdata.fhvhv_tripdata GROUP BY hvfhs_license_num ORDER BY trips DESC;

clickzetta_doc_kb

数据内容:云器 Lakehouse 产品文档的向量知识库,通过阿里云 DashScope 的文本嵌入模型将文档内容转换为 1024 维向量,用于语义检索和 AI 问答。

规模:1 张表

dashscope_clickzetta_elements
dashscope_clickzetta_elements

主要字段

字段类型说明
id
id
string记录唯一 ID
type
type
string元素类型(Title / NarrativeText / Table 等)
filename
filename
string来源文档文件名
text
text
string原始文本内容
embeddings
embeddings
vector(float, 1024)文本的 1024 维向量表示
element_type
element_type
string文档元素分类
documents_source
documents_source
string文档来源标识
date_processed
date_processed
timestamp_ltz向量化处理时间

适用场景

  • 体验向量相似度检索(
    cosine_distance
    cosine_distance
    函数)
  • 构建基于产品文档的 RAG(检索增强生成)问答系统
  • 学习
    AI_EMBEDDING
    AI_EMBEDDING
    函数与向量索引的配合使用

示例查询:用向量相似度检索与"动态表"最相关的文档片段

SELECT filename, type, text, cosine_distance(embeddings, AI_EMBEDDING('ai_gateway_conn:text-embedding-v4', '动态表是什么')) AS distance FROM clickzetta_sample_data.clickzetta_doc_kb.dashscope_clickzetta_elements ORDER BY distance ASC LIMIT 5;

相关文档

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询