数据分析与 SQL 指南

Lakehouse 的分析能力覆盖五个方向：交互式 SQL 查询与分析、数据写入与变更、实时与增量处理、对象与存储管理，以及 SQL 语法与函数参考。

数据查询与分析

直接在 Studio 编写 SQL，支持标准 SQL 语法，包括窗口函数、CTE、JOIN、子查询等。

场景	参考文档
数据去重（ROW_NUMBER / DISTINCT / BITMAP）	数据去重处理
基础过滤与排序	基础数据过滤与排序
分组聚合（GROUP BY / ROLLUP / CUBE）	数据分组聚合
排名与分位分析（RANK / NTILE / PERCENTILE）	排名与分位分析
时间序列分析（同比 / 环比 / 滑动窗口）	时间序列分析
漏斗分析与用户行为路径	漏斗分析与用户行为
会话分析（Sessionization）	会话分析
留存与同期群分析（Cohort）	留存与同期群分析
营销归因分析（首次/末次/线性/时间衰减）	营销归因分析
层级查询（组织架构 / BOM）	层级查询 Workaround
字符串处理	字符串处理
数据透视（行转列 / 列转行）	数据透视与行列转换
缺失值填充与处理	缺失值填充
数据类型转换	数据类型转换
JSON 数据解析	JSON 数据解析
累计计算与运行总计	累计计算与运行总计
BITMAP 用户圈选与分析	BITMAP 用户分析
数据采样探索	数据采样探索
数据对比与合并（UNION / INTERSECT / EXCEPT）	数据对比与合并
半结构化数据分析	半结构化数据分析

场景	参考文档
批量插入数据（INSERT / INSERT OVERWRITE）	批量插入数据
Upsert 操作（MERGE INTO）	Upsert 操作
数据更新与清理（UPDATE / DELETE）	数据更新与清理
表克隆与快速备份（零拷贝克隆）	表克隆与快速备份

场景	参考文档
视图与物化视图	视图与物化视图
语义视图（业务术语查询）	语义视图使用指南
Volume 文件管理	Volume 文件管理
文件批量导入导出（COPY INTO）	文件批量导入导出
外部表查询（Parquet / ORC / CSV）	外部表查询
联邦查询（Hive / Databricks / Snowflake）	联邦查询
跨实例数据共享	跨实例数据共享
查询加速索引（Bloomfilter / 倒排 / 向量）	查询加速索引
历史数据回溯（Time Travel）	历史数据回溯

主流 BI 工具均通过 JDBC / ODBC 连接。

场景	方案	参考文档
用自然语言提问，AI 自动生成 SQL	Data Analytics Agent (DataGPT)	DataGPT 介绍 · DataGPT 使用教程
语义搜索 / RAG 应用	向量检索	向量检索 · 向量检索与 RAG 应用实战
在 SQL 中调用大模型	AI 函数	AI 函数使用指南
用业务术语查询（无需写 JOIN）	语义视图	语义视图概述

联系我们