Lakehouse AI 功能概述
云器 Lakehouse 将 AI 能力原生集成到数据平台中——你可以直接在 SQL 里调用大模型、做向量检索、构建 RAG 管道,不需要把数据搬到外部 AI 平台。
选型指南
| 我想做的事 | 推荐方案 |
|---|---|
| 在 SQL 查询里调用 LLM(文本分类、摘要、抽取、翻译) | AI Functions / AI_COMPLETE |
| 管理和切换多个 LLM 模型(OpenAI、通义、文心等) | AI Gateway |
| 语义相似度搜索、RAG 召回、图像检索 | 向量检索 |
| 调用外部 HTTP 服务(云函数、视觉 API、自定义模型) | External Function |
| 用 Python 做数据处理 + AI 推理,类 PySpark 接口 | Zettapark |
| 为 BI 工具和 AI Agent 封装业务语义层 | 语义视图 |
| 自然语言对话式数据分析,零门槛查数据 | Data Analytics Agent(Analytics Agent) |
| 用自然语言开发 ETL、管理任务、运维诊断、操作数据源 | Data Engineering Agent |
| 让 AI Agent 直接操作 Lakehouse | CZ-CLI |
两类 Data Agent 的分工
Lakehouse AI 中有两类面向不同角色、不同流程的 Data Agent。它们都基于 Lakehouse 数据与元数据工作,但解决的问题并不相同。
Data Analytics Agent(Analytics Agent)
面向分析消费和语义治理,重点是让用户更容易“问数、看数、理解结果、沉淀分析能力”。
适合的场景包括:
- 配置分析域、字段语义、虚拟列、知识和指标
- 通过自然语言查询业务数据
- 让分析人员和业务人员更容易完成探索分析和看板消费
- 持续优化问答准确率和结果可解释性
可以把它理解为:把数据资产变成可被业务理解和消费的分析能力。
→ Data Analytics Agent(Analytics Agent)
Data Engineering Agent
面向数据工程生产流程,重点是让用户更高效地“建任务、配调度、查运行、做治理、排故障”。
适合的场景包括:
- 创建和维护 SQL / Python / Shell / 组合任务
- 配置调度、依赖、发布和运行监控
- 辅助做 DQC、任务排障、数据源接入和工程治理
- 组织和维护数据工程链路
可以把它理解为:把数据工程对象真正建设出来、运行起来、治理起来。
两者如何配合
这两类 Agent 不是重复关系,而是上下游关系:
- Data Engineering Agent 负责把数据工程链路、任务、质量和运行体系建设好
- Data Analytics Agent 负责把这些数据资产进一步转成可提问、可分析、可消费的业务分析能力
如果从平台建设顺序看,通常是:
- 先用 Data Engineering Agent 把数据接入、加工、调度、治理做出来
- 再用 Data Analytics Agent 把数据语义、分析域、指标和问答体验建设好
核心能力
AI Functions — 在 SQL 里调用大模型
AI_COMPLETE 是最直接的入口:一条 SQL,对每一行数据调用 LLM,结果直接出现在查询结果集里。
→ AI Functions 完整文档 · AI_COMPLETE 语法参考 · AI Gateway 模型管理
向量检索 — 语义搜索与 RAG
在表上创建向量索引,支持近似最近邻(ANN)检索,适合语义搜索、知识库问答、图像相似度等场景。
→ 向量检索完整文档 · 向量索引 · 全文检索 + 向量混合搜索最佳实践
External Function — 调用外部 AI 服务
将阿里云函数计算、腾讯云 SCF 等 HTTP 服务注册为 SQL 函数,在查询中直接调用视觉识别、语音转写、自定义模型等能力。
→ External Function 介绍 · 开发指南(Python) · 使用指南
语义视图 — 为 AI Agent 和 BI 工具提供语义层
将多表 JOIN 和聚合逻辑封装为业务语义,BI 工具和 AI Agent 通过语义视图访问数据,屏蔽底层表结构复杂度,统一指标口径。
→ 语义视图概述 · 与 AI 功能集成 · 用 AI Agent 生成语义视图
Zettapark — Python 数据处理与 AI 推理
类 PySpark 的 Python 接口,在 Lakehouse 上运行 Python 脚本,适合特征工程、模型推理、复杂数据处理等 SQL 无法覆盖的场景。
→ Zettapark 快速上手 · 信用评分示例 · 特征工程示例
Data Engineering Agent — 用自然语言驱动数据平台
构建于 Lakehouse + Studio 之上的 AI 智能体,通过自然语言辅助完成 ETL 开发、任务管理、日常运维、数据源接入等工作,覆盖数据开发的全生命周期。用户可以用自然语言描述需求,由 Agent 协助完成任务拆解、工具调用和执行;具体能否直接执行变更,还取决于当前权限、工具开放范围和确认流程。
典型用法:
- ETL 开发:描述数仓分层设计,自动生成建模规范文档和 SQL 代码
- 临时取数:用自然语言提问,自动生成并执行 SQL,直接返回结果
- 日常运维:分析失败任务、定位根因、量化下游影响、推荐修复方案
- 任务管理:创建和配置 Studio 任务、设置调度和依赖关系
- 数据源管理:接入和配置数据源、监控同步状态
典型场景
RAG 知识库问答:文档入库 → 向量化 → 向量索引 → 用户提问时召回相关片段 → AI_COMPLETE 生成回答 → 向量检索指南 · 混合检索最佳实践
批量文本处理:评论情感分析、合同信息抽取、多语言翻译 → AI Functions 概述
AI 增强 BI:语义视图统一指标口径,Data Analytics Agent 自然语言查数据 → 语义视图最佳实践
图像 / 多模态处理:调用视觉 API 做图像分类、OCR → 利用 Hugging Face 图片识别模型处理图片数据
