Lakehouse AI 功能概述

云器 Lakehouse 将 AI 能力原生集成到数据平台中——你可以直接在 SQL 里调用大模型、做向量检索、构建 RAG 管道，不需要把数据搬到外部 AI 平台。

选型指南

我想做的事	推荐方案
在 SQL 查询里调用 LLM（文本分类、摘要、抽取、翻译）	AI Functions / AI_COMPLETE
管理和切换多个 LLM 模型（OpenAI、通义、文心等）	AI Gateway
语义相似度搜索、RAG 召回、图像检索	向量检索
调用外部 HTTP 服务（云函数、视觉 API、自定义模型）	External Function
用 Python 做数据处理 + AI 推理，类 PySpark 接口	Zettapark
为 BI 工具和 AI Agent 封装业务语义层	语义视图
自然语言对话式数据分析，零门槛查数据	Data Analytics Agent（Analytics Agent）
用自然语言开发 ETL、管理任务、运维诊断、操作数据源	Data Engineering Agent
让 AI Agent 直接操作 Lakehouse	CZ-CLI

两类 Data Agent 的分工

Lakehouse AI 中有两类面向不同角色、不同流程的 Data Agent。它们都基于 Lakehouse 数据与元数据工作，但解决的问题并不相同。

Data Analytics Agent（Analytics Agent）

面向分析消费和语义治理，重点是让用户更容易“问数、看数、理解结果、沉淀分析能力”。

适合的场景包括：

配置分析域、字段语义、虚拟列、知识和指标
通过自然语言查询业务数据
让分析人员和业务人员更容易完成探索分析和看板消费
持续优化问答准确率和结果可解释性

可以把它理解为：把数据资产变成可被业务理解和消费的分析能力。

→ Data Analytics Agent（Analytics Agent）

Data Engineering Agent

面向数据工程生产流程，重点是让用户更高效地“建任务、配调度、查运行、做治理、排故障”。

适合的场景包括：

创建和维护 SQL / Python / Shell / 组合任务
配置调度、依赖、发布和运行监控
辅助做 DQC、任务排障、数据源接入和工程治理
组织和维护数据工程链路

可以把它理解为：把数据工程对象真正建设出来、运行起来、治理起来。

→ Data Engineering Agent

两者如何配合

这两类 Agent 不是重复关系，而是上下游关系：

Data Engineering Agent 负责把数据工程链路、任务、质量和运行体系建设好
Data Analytics Agent 负责把这些数据资产进一步转成可提问、可分析、可消费的业务分析能力

如果从平台建设顺序看，通常是：

先用 Data Engineering Agent 把数据接入、加工、调度、治理做出来
再用 Data Analytics Agent 把数据语义、分析域、指标和问答体验建设好

核心能力

AI Functions — 在 SQL 里调用大模型

AI_COMPLETE

AI_COMPLETE

是最直接的入口：一条 SQL，对每一行数据调用 LLM，结果直接出现在查询结果集里。

-- 对每条用户评论做情感分析 SELECT review_id, review_text, AI_COMPLETE('判断以下评论的情感倾向，返回"正面"、"负面"或"中性"：' || review_text) AS sentiment FROM user_reviews;

→ AI Functions 完整文档 · AI_COMPLETE 语法参考 · AI Gateway 模型管理

向量检索 — 语义搜索与 RAG

在表上创建向量索引，支持近似最近邻（ANN）检索，适合语义搜索、知识库问答、图像相似度等场景。

-- 语义相似度搜索：找最相近的 5 条文档 SELECT doc_id, content FROM knowledge_base ORDER BY cosine_distance(embedding, AI_EMBED('用户的问题')) ASC LIMIT 5;

→ 向量检索完整文档 · 向量索引 · 全文检索 + 向量混合搜索最佳实践

External Function — 调用外部 AI 服务

将阿里云函数计算、腾讯云 SCF 等 HTTP 服务注册为 SQL 函数，在查询中直接调用视觉识别、语音转写、自定义模型等能力。

→ External Function 介绍 · 开发指南（Python） · 使用指南

语义视图 — 为 AI Agent 和 BI 工具提供语义层

将多表 JOIN 和聚合逻辑封装为业务语义，BI 工具和 AI Agent 通过语义视图访问数据，屏蔽底层表结构复杂度，统一指标口径。

→ 语义视图概述 · 与 AI 功能集成 · 用 AI Agent 生成语义视图

Zettapark — Python 数据处理与 AI 推理

类 PySpark 的 Python 接口，在 Lakehouse 上运行 Python 脚本，适合特征工程、模型推理、复杂数据处理等 SQL 无法覆盖的场景。

→ Zettapark 快速上手 · 信用评分示例 · 特征工程示例

Data Engineering Agent — 用自然语言驱动数据平台

构建于 Lakehouse + Studio 之上的 AI 智能体，通过自然语言辅助完成 ETL 开发、任务管理、日常运维、数据源接入等工作，覆盖数据开发的全生命周期。用户可以用自然语言描述需求，由 Agent 协助完成任务拆解、工具调用和执行；具体能否直接执行变更，还取决于当前权限、工具开放范围和确认流程。

典型用法：

ETL 开发：描述数仓分层设计，自动生成建模规范文档和 SQL 代码
临时取数：用自然语言提问，自动生成并执行 SQL，直接返回结果
日常运维：分析失败任务、定位根因、量化下游影响、推荐修复方案
任务管理：创建和配置 Studio 任务、设置调度和依赖关系
数据源管理：接入和配置数据源、监控同步状态

→ Data Engineering Agent 完整文档

典型场景

RAG 知识库问答：文档入库 → 向量化 → 向量索引 → 用户提问时召回相关片段 → AI_COMPLETE 生成回答 → 向量检索指南 · 混合检索最佳实践

批量文本处理：评论情感分析、合同信息抽取、多语言翻译 → AI Functions 概述

AI 增强 BI：语义视图统一指标口径，Data Analytics Agent 自然语言查数据 → 语义视图最佳实践

图像 / 多模态处理：调用视觉 API 做图像分类、OCR → 利用 Hugging Face 图片识别模型处理图片数据

联系我们