数据分析与 SQL 指南

Lakehouse 的分析能力覆盖五个方向:交互式 SQL 查询与分析、数据写入与变更、实时与增量处理、对象与存储管理,以及 SQL 语法与函数参考。


数据查询与分析

直接在 Studio 编写 SQL,支持标准 SQL 语法,包括窗口函数、CTE、JOIN、子查询等。

入口文档数据查询与分析

场景参考文档
数据去重(ROW_NUMBER / DISTINCT / BITMAP)数据去重处理
基础过滤与排序基础数据过滤与排序
分组聚合(GROUP BY / ROLLUP / CUBE)数据分组聚合
排名与分位分析(RANK / NTILE / PERCENTILE)排名与分位分析
时间序列分析(同比 / 环比 / 滑动窗口)时间序列分析
漏斗分析与用户行为路径漏斗分析与用户行为
会话分析(Sessionization)会话分析
留存与同期群分析(Cohort)留存与同期群分析
营销归因分析(首次/末次/线性/时间衰减)营销归因分析
层级查询(组织架构 / BOM)层级查询 Workaround
字符串处理字符串处理
数据透视(行转列 / 列转行)数据透视与行列转换
缺失值填充与处理缺失值填充
数据类型转换数据类型转换
JSON 数据解析JSON 数据解析
累计计算与运行总计累计计算与运行总计
BITMAP 用户圈选与分析BITMAP 用户分析
数据采样探索数据采样探索
数据对比与合并(UNION / INTERSECT / EXCEPT)数据对比与合并
半结构化数据分析半结构化数据分析

数据写入与变更

入口文档数据写入与变更

场景参考文档
批量插入数据(INSERT / INSERT OVERWRITE)批量插入数据
Upsert 操作(MERGE INTO)Upsert 操作
数据更新与清理(UPDATE / DELETE)数据更新与清理
表克隆与快速备份(零拷贝克隆)表克隆与快速备份

实时与增量处理

入口文档实时与增量处理

场景参考文档
声明式增量计算(Dynamic Table)动态表开发入门
行级变更捕获 CDC(Table Stream)Table Stream 变更数据捕获
持续数据导入(Pipe)持续数据导入

对象与存储管理

入口文档对象与存储管理

场景参考文档
视图与物化视图视图与物化视图
语义视图(业务术语查询)语义视图使用指南
Volume 文件管理Volume 文件管理
文件批量导入导出(COPY INTO)文件批量导入导出
外部表查询(Parquet / ORC / CSV)外部表查询
联邦查询(Hive / Databricks / Snowflake)联邦查询
跨实例数据共享跨实例数据共享
查询加速索引(Bloomfilter / 倒排 / 向量)查询加速索引
历史数据回溯(Time Travel)历史数据回溯

SQL 语法与优化

入口文档SQL 语法与优化

场景参考文档
CREATE TABLE 语法SQL CREATE TABLE 使用指南
DML 注意事项SQL DML 使用指南
SELECT 注意事项SQL SELECT 使用指南
JOIN 写法与优化SQL Join 使用指南
CTE 写法SQL With CTE 使用指南
分区表使用分区表使用指南
生成列生成列使用指南
JSON 查询语法JSON 查询语法
JSON 数据处理JSON 数据处理使用指南
VECTOR 数据处理VECTOR 数据处理使用指南
执行计划分析(EXPLAIN)执行计划分析
小文件合并优化小文件合并优化

SQL 函数使用指南

入口文档SQL 函数使用指南

场景参考文档
数组与 Map 处理数组与 Map 处理实战
近似聚合函数(HyperLogLog / KLL)近似聚合函数实战
数组展开与扁平化(EXPLODE / UNNEST)数组展开与扁平化实战
全文搜索与文本分析全文搜索与文本分析实战
向量检索与 RAG 应用向量检索与 RAG 应用实战

连接 BI 工具出报表

主流 BI 工具均通过 JDBC / ODBC 连接。

BI 工具参考文档
FineBIFineBI 连接指南
PowerBIPowerBI 连接指南
TableauTableau 连接指南
SupersetSuperset 连接指南
其他工具生态工具集成总览

用 AI 分析数据

场景方案参考文档
用自然语言提问,AI 自动生成 SQLData Analytics Agent (DataGPT)DataGPT 介绍 · DataGPT 使用教程
语义搜索 / RAG 应用向量检索向量检索 · 向量检索与 RAG 应用实战
在 SQL 中调用大模型AI 函数AI 函数使用指南
用业务术语查询(无需写 JOIN)语义视图语义视图概述

查询性能优化

场景方案参考文档
高频复杂查询太慢物化视图(预计算 + 查询改写)物化视图
重复查询结果缓存Result Cache性能优化
大表扫描慢排序列 / 分区设计表设计最佳实践
小文件过多影响性能小文件合并小文件合并优化
查询慢,想定位瓶颈Job Profile 诊断作业历史分析
联系我们
预约咨询
微信咨询
电话咨询
邮件咨询