数据分析与 SQL 指南
Lakehouse 的分析能力覆盖五个方向:交互式 SQL 查询与分析、数据写入与变更、实时与增量处理、对象与存储管理,以及 SQL 语法与函数参考。
数据查询与分析
直接在 Studio 编写 SQL,支持标准 SQL 语法,包括窗口函数、CTE、JOIN、子查询等。
入口文档:数据查询与分析
| 场景 | 参考文档 |
|---|---|
| 数据去重(ROW_NUMBER / DISTINCT / BITMAP) | 数据去重处理 |
| 基础过滤与排序 | 基础数据过滤与排序 |
| 分组聚合(GROUP BY / ROLLUP / CUBE) | 数据分组聚合 |
| 排名与分位分析(RANK / NTILE / PERCENTILE) | 排名与分位分析 |
| 时间序列分析(同比 / 环比 / 滑动窗口) | 时间序列分析 |
| 漏斗分析与用户行为路径 | 漏斗分析与用户行为 |
| 会话分析(Sessionization) | 会话分析 |
| 留存与同期群分析(Cohort) | 留存与同期群分析 |
| 营销归因分析(首次/末次/线性/时间衰减) | 营销归因分析 |
| 层级查询(组织架构 / BOM) | 层级查询 Workaround |
| 字符串处理 | 字符串处理 |
| 数据透视(行转列 / 列转行) | 数据透视与行列转换 |
| 缺失值填充与处理 | 缺失值填充 |
| 数据类型转换 | 数据类型转换 |
| JSON 数据解析 | JSON 数据解析 |
| 累计计算与运行总计 | 累计计算与运行总计 |
| BITMAP 用户圈选与分析 | BITMAP 用户分析 |
| 数据采样探索 | 数据采样探索 |
| 数据对比与合并(UNION / INTERSECT / EXCEPT) | 数据对比与合并 |
| 半结构化数据分析 | 半结构化数据分析 |
数据写入与变更
入口文档:数据写入与变更
| 场景 | 参考文档 |
|---|---|
| 批量插入数据(INSERT / INSERT OVERWRITE) | 批量插入数据 |
| Upsert 操作(MERGE INTO) | Upsert 操作 |
| 数据更新与清理(UPDATE / DELETE) | 数据更新与清理 |
| 表克隆与快速备份(零拷贝克隆) | 表克隆与快速备份 |
实时与增量处理
入口文档:实时与增量处理
| 场景 | 参考文档 |
|---|---|
| 声明式增量计算(Dynamic Table) | 动态表开发入门 |
| 行级变更捕获 CDC(Table Stream) | Table Stream 变更数据捕获 |
| 持续数据导入(Pipe) | 持续数据导入 |
对象与存储管理
入口文档:对象与存储管理
| 场景 | 参考文档 |
|---|---|
| 视图与物化视图 | 视图与物化视图 |
| 语义视图(业务术语查询) | 语义视图使用指南 |
| Volume 文件管理 | Volume 文件管理 |
| 文件批量导入导出(COPY INTO) | 文件批量导入导出 |
| 外部表查询(Parquet / ORC / CSV) | 外部表查询 |
| 联邦查询(Hive / Databricks / Snowflake) | 联邦查询 |
| 跨实例数据共享 | 跨实例数据共享 |
| 查询加速索引(Bloomfilter / 倒排 / 向量) | 查询加速索引 |
| 历史数据回溯(Time Travel) | 历史数据回溯 |
SQL 语法与优化
入口文档:SQL 语法与优化
| 场景 | 参考文档 |
|---|---|
| CREATE TABLE 语法 | SQL CREATE TABLE 使用指南 |
| DML 注意事项 | SQL DML 使用指南 |
| SELECT 注意事项 | SQL SELECT 使用指南 |
| JOIN 写法与优化 | SQL Join 使用指南 |
| CTE 写法 | SQL With CTE 使用指南 |
| 分区表使用 | 分区表使用指南 |
| 生成列 | 生成列使用指南 |
| JSON 查询语法 | JSON 查询语法 |
| JSON 数据处理 | JSON 数据处理使用指南 |
| VECTOR 数据处理 | VECTOR 数据处理使用指南 |
| 执行计划分析(EXPLAIN) | 执行计划分析 |
| 小文件合并优化 | 小文件合并优化 |
SQL 函数使用指南
入口文档:SQL 函数使用指南
| 场景 | 参考文档 |
|---|---|
| 数组与 Map 处理 | 数组与 Map 处理实战 |
| 近似聚合函数(HyperLogLog / KLL) | 近似聚合函数实战 |
| 数组展开与扁平化(EXPLODE / UNNEST) | 数组展开与扁平化实战 |
| 全文搜索与文本分析 | 全文搜索与文本分析实战 |
| 向量检索与 RAG 应用 | 向量检索与 RAG 应用实战 |
连接 BI 工具出报表
主流 BI 工具均通过 JDBC / ODBC 连接。
| BI 工具 | 参考文档 |
|---|---|
| FineBI | FineBI 连接指南 |
| PowerBI | PowerBI 连接指南 |
| Tableau | Tableau 连接指南 |
| Superset | Superset 连接指南 |
| 其他工具 | 生态工具集成总览 |
用 AI 分析数据
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 用自然语言提问,AI 自动生成 SQL | Data Analytics Agent (DataGPT) | DataGPT 介绍 · DataGPT 使用教程 |
| 语义搜索 / RAG 应用 | 向量检索 | 向量检索 · 向量检索与 RAG 应用实战 |
| 在 SQL 中调用大模型 | AI 函数 | AI 函数使用指南 |
| 用业务术语查询(无需写 JOIN) | 语义视图 | 语义视图概述 |
查询性能优化
| 场景 | 方案 | 参考文档 |
|---|---|---|
| 高频复杂查询太慢 | 物化视图(预计算 + 查询改写) | 物化视图 |
| 重复查询结果缓存 | Result Cache | 性能优化 |
| 大表扫描慢 | 排序列 / 分区设计 | 表设计最佳实践 |
| 小文件过多影响性能 | 小文件合并 | 小文件合并优化 |
| 查询慢,想定位瓶颈 | Job Profile 诊断 | 作业历史分析 |
联系我们
