内置示例数据集

clickzetta_sample_data

clickzetta_sample_data

是云器 Lakehouse 通过数据共享机制内置的公共数据集，每个租户开箱即用，无需申请、无需导入、不占用你的存储配额。

直接在 SQL 中三段式引用即可查询：

SELECT * FROM clickzetta_sample_data.tpch_100g.orders LIMIT 10;

包含 5 个 schema，覆盖性能基准测试、业务分析练习和 AI 向量检索等场景：

Schema	数据内容	规模
`tpch_100g` tpch_100g	TPC-H 标准基准，供应链订单数据	100GB，lineitem 6 亿行
`tpcds_10tb` tpcds_10tb	TPC-DS 标准基准，零售多渠道销售数据	10TB，store_sales 288 亿行
`ecommerce_events_history` ecommerce_events_history	电商用户行为事件流	历史表 1.1 亿行，实时表 3.7 亿行
`nyc_taxi_tripdata` nyc_taxi_tripdata	纽约市网约车行程记录	14.9 亿行
`clickzetta_doc_kb` clickzetta_doc_kb	云器产品文档向量知识库	含 1024 维 embedding

tpch_100g

数据来源：TPC-H 是数据库行业标准基准测试，模拟供应链场景，包含订单、零件、供应商、客户等 8 张表。

规模：100GB，共 8 张表。

表名	行数	说明
`lineitem` lineitem	6 亿	订单明细，最大表
`orders` orders	1.5 亿	订单主表
`customer` customer	1500 万	客户信息
`supplier` supplier	100 万	供应商信息
`part` part	200 万	零件信息
`partsupp` partsupp	800 万	零件供应关系
`nation` nation	25	国家维度
`region` region	5	地区维度

适用场景：

测试 SQL 查询性能，对比不同 VCluster 规格的响应时间
学习多表 JOIN、聚合、窗口函数等 SQL 语法
验证索引效果（Bloomfilter、倒排索引）

示例查询：统计各地区的年度收入（TPC-H Q5）

SELECT n.n_name, SUM(l.l_extendedprice * (1 - l.l_discount)) AS revenue FROM clickzetta_sample_data.tpch_100g.customer c JOIN clickzetta_sample_data.tpch_100g.orders o ON c.c_custkey = o.o_custkey JOIN clickzetta_sample_data.tpch_100g.lineitem l ON o.o_orderkey = l.l_orderkey JOIN clickzetta_sample_data.tpch_100g.supplier s ON l.l_suppkey = s.s_suppkey JOIN clickzetta_sample_data.tpch_100g.nation n ON c.c_nationkey = n.n_nationkey JOIN clickzetta_sample_data.tpch_100g.region r ON n.n_regionkey = r.r_regionkey WHERE r.r_name = 'ASIA' AND o.o_orderdate >= '1994-01-01' AND o.o_orderdate < '1995-01-01' GROUP BY n.n_name ORDER BY revenue DESC;

tpcds_10tb

数据来源：TPC-DS 是比 TPC-H 更复杂的零售业基准测试，模拟多渠道（门店、目录、网络）销售场景，包含 24 张表，99 个标准查询。

规模：10TB，共 24 张表。

表名	行数	说明
`store_sales` store_sales	288 亿	门店销售明细
`catalog_sales` catalog_sales	144 亿	目录销售明细
`web_sales` web_sales	72 亿	网络销售明细
`store_returns` store_returns	28.8 亿	门店退货记录
`inventory` inventory	13.1 亿	库存记录
`customer` customer	6500 万	客户信息
`item` item	40.2 万	商品信息
`date_dim` date_dim	7.3 万	日期维度
其他 16 张	—	维度表（门店、促销、地址等）

适用场景：

大规模压测，验证 10TB 级别查询性能
测试复杂多表 JOIN 和子查询的执行计划
对比不同 VCluster 规格在重型查询下的表现

示例查询：统计各门店的季度销售额

SELECT s.s_store_name, d.d_year, d.d_qoy, SUM(ss.ss_net_paid) AS total_sales FROM clickzetta_sample_data.tpcds_10tb.store_sales ss JOIN clickzetta_sample_data.tpcds_10tb.store s ON ss.ss_store_sk = s.s_store_sk JOIN clickzetta_sample_data.tpcds_10tb.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk WHERE d.d_year = 2001 GROUP BY s.s_store_name, d.d_year, d.d_qoy ORDER BY d.d_qoy, total_sales DESC LIMIT 20;

⚠️ 注意：tpcds_10tb 数据量极大，建议使用 Large 及以上规格的 VCluster 执行查询，避免超时。

ecommerce_events_history

数据来源：来自 Kaggle 公开数据集，记录一家多品类电商平台的用户行为事件，包含浏览、加购、购买等操作。

规模：2 张表。

表名	行数	说明
`ecommerce_events_multicategorystore` ecommerce_events_multicategorystore	1.1 亿	历史事件快照表
`ecommerce_events_multicategorystore_live` ecommerce_events_multicategorystore_live	3.7 亿	持续更新的实时事件表，开启了 `change_tracking` change_tracking ，可创建 Table Stream

字段说明：

字段	类型	说明
`event_time` event_time	varchar	事件发生时间
`event_timestamp` event_timestamp	timestamp_ltz	事件时间戳
`event_type` event_type	varchar	事件类型：view / cart / purchase
`product_id` product_id	varchar	商品 ID
`category_id` category_id	varchar	品类 ID
`category_code` category_code	varchar	品类路径，如 `electronics.smartphone` electronics.smartphone
`brand` brand	varchar	品牌
`price` price	decimal(10,2)	商品价格
`user_id` user_id	varchar	用户 ID
`user_session` user_session	varchar	会话 ID
`event_date` event_date	date	事件日期（分区键）

适用场景：

漏斗分析（浏览 → 加购 → 购买转化率）
用户留存和复购分析
品类和品牌销售排行
基于 Table Stream 的增量数据处理练习

示例查询：统计各事件类型的转化漏斗

SELECT event_type, COUNT(DISTINCT user_id) AS users, COUNT(*) AS events FROM clickzetta_sample_data.ecommerce_events_history.ecommerce_events_multicategorystore GROUP BY event_type ORDER BY events DESC;

nyc_taxi_tripdata

数据来源：纽约市出租车和豪华轿车委员会（TLC）公开的网约车行程数据，包含 Uber、Lyft 等平台（FHVHV：For-Hire Vehicle High Volume）的行程记录。

规模：1 张表，14.9 亿行。

主要字段：

字段	类型	说明
`hvfhs_license_num` hvfhs_license_num	varchar	平台牌照号（HV0003=Uber，HV0005=Lyft）
`pickup_datetime` pickup_datetime	timestamp_ltz	上车时间
`dropoff_datetime` dropoff_datetime	timestamp_ltz	下车时间
`trip_miles` trip_miles	double	行程里程（英里）
`trip_time` trip_time	bigint	行程时长（秒）
`base_passenger_fare` base_passenger_fare	double	乘客基础费用
`tips` tips	double	小费
`driver_pay` driver_pay	double	司机实收
`shared_request_flag` shared_request_flag	varchar	是否拼车请求（Y/N）
`wav_request_flag` wav_request_flag	varchar	是否请求无障碍车辆（Y/N）

适用场景：

时序聚合分析（按小时、按星期统计行程量）
大表聚合性能测试
平台对比分析（Uber vs Lyft）
地理数据分析（结合上下车区域字段）

示例查询：按平台统计平均行程里程和费用

SELECT hvfhs_license_num, COUNT(*) AS trips, ROUND(AVG(trip_miles), 2) AS avg_miles, ROUND(AVG(trip_time) / 60, 1) AS avg_minutes, ROUND(AVG(base_passenger_fare), 2) AS avg_fare FROM clickzetta_sample_data.nyc_taxi_tripdata.fhvhv_tripdata GROUP BY hvfhs_license_num ORDER BY trips DESC;

⚠️ 注意：该表有 14.9 亿行，全表扫描耗时较长。建议在查询中加入时间范围过滤，或使用 Large 及以上规格的 VCluster。

clickzetta_doc_kb

数据内容：云器 Lakehouse 产品文档的向量知识库，通过阿里云 DashScope 的文本嵌入模型将文档内容转换为 1024 维向量，用于语义检索和 AI 问答。

规模：1 张表

dashscope_clickzetta_elements

dashscope_clickzetta_elements

。

主要字段：

字段	类型	说明
`id` id	string	记录唯一 ID
`type` type	string	元素类型（Title / NarrativeText / Table 等）
`filename` filename	string	来源文档文件名
`text` text	string	原始文本内容
`embeddings` embeddings	vector(float, 1024)	文本的 1024 维向量表示
`element_type` element_type	string	文档元素分类
`documents_source` documents_source	string	文档来源标识
`date_processed` date_processed	timestamp_ltz	向量化处理时间

适用场景：

体验向量相似度检索（
```
cosine_distance
```
cosine_distance
函数）
构建基于产品文档的 RAG（检索增强生成）问答系统
学习
```
AI_EMBEDDING
```
AI_EMBEDDING
函数与向量索引的配合使用

示例查询：用向量相似度检索与"动态表"最相关的文档片段

SELECT filename, type, text, cosine_distance(embeddings, AI_EMBEDDING('ai_gateway_conn:text-embedding-v4', '动态表是什么')) AS distance FROM clickzetta_sample_data.clickzetta_doc_kb.dashscope_clickzetta_elements ORDER BY distance ASC LIMIT 5;

内置示例数据集

tpch_100g

tpcds_10tb

ecommerce_events_history

nyc_taxi_tripdata

clickzetta_doc_kb

相关文档