Lakehouse AI 功能概述

云器 Lakehouse 将 AI 能力原生集成到数据平台中——你可以直接在 SQL 里调用大模型、做向量检索、构建 RAG 管道,不需要把数据搬到外部 AI 平台。


选型指南

我想做的事推荐方案
在 SQL 查询里调用 LLM(文本分类、摘要、抽取、翻译)AI Functions / AI_COMPLETE
管理和切换多个 LLM 模型(OpenAI、通义、文心等)AI Gateway
语义相似度搜索、RAG 召回、图像检索向量检索
调用外部 HTTP 服务(云函数、视觉 API、自定义模型)External Function
用 Python 做数据处理 + AI 推理,类 PySpark 接口Zettapark
为 BI 工具和 AI Agent 封装业务语义层语义视图
自然语言对话式数据分析,零门槛查数据Data Analytics Agent(Analytics Agent)
用自然语言开发 ETL、管理任务、运维诊断、操作数据源Data Engineering Agent
让 AI Agent 直接操作 LakehouseCZ-CLI

两类 Data Agent 的分工

Lakehouse AI 中有两类面向不同角色、不同流程的 Data Agent。它们都基于 Lakehouse 数据与元数据工作,但解决的问题并不相同。

Data Analytics Agent(Analytics Agent)

面向分析消费和语义治理,重点是让用户更容易“问数、看数、理解结果、沉淀分析能力”。

适合的场景包括:

  • 配置分析域、字段语义、虚拟列、知识和指标
  • 通过自然语言查询业务数据
  • 让分析人员和业务人员更容易完成探索分析和看板消费
  • 持续优化问答准确率和结果可解释性

可以把它理解为:把数据资产变成可被业务理解和消费的分析能力。

Data Analytics Agent(Analytics Agent)

Data Engineering Agent

面向数据工程生产流程,重点是让用户更高效地“建任务、配调度、查运行、做治理、排故障”。

适合的场景包括:

  • 创建和维护 SQL / Python / Shell / 组合任务
  • 配置调度、依赖、发布和运行监控
  • 辅助做 DQC、任务排障、数据源接入和工程治理
  • 组织和维护数据工程链路

可以把它理解为:把数据工程对象真正建设出来、运行起来、治理起来。

Data Engineering Agent

两者如何配合

这两类 Agent 不是重复关系,而是上下游关系:

  • Data Engineering Agent 负责把数据工程链路、任务、质量和运行体系建设好
  • Data Analytics Agent 负责把这些数据资产进一步转成可提问、可分析、可消费的业务分析能力

如果从平台建设顺序看,通常是:

  1. 先用 Data Engineering Agent 把数据接入、加工、调度、治理做出来
  2. 再用 Data Analytics Agent 把数据语义、分析域、指标和问答体验建设好

核心能力

AI Functions — 在 SQL 里调用大模型

AI_COMPLETE
AI_COMPLETE
是最直接的入口:一条 SQL,对每一行数据调用 LLM,结果直接出现在查询结果集里。

-- 对每条用户评论做情感分析 SELECT review_id, review_text, AI_COMPLETE('判断以下评论的情感倾向,返回"正面"、"负面"或"中性":' || review_text) AS sentiment FROM user_reviews;

AI Functions 完整文档 · AI_COMPLETE 语法参考 · AI Gateway 模型管理


向量检索 — 语义搜索与 RAG

在表上创建向量索引,支持近似最近邻(ANN)检索,适合语义搜索、知识库问答、图像相似度等场景。

-- 语义相似度搜索:找最相近的 5 条文档 SELECT doc_id, content FROM knowledge_base ORDER BY cosine_distance(embedding, AI_EMBED('用户的问题')) ASC LIMIT 5;

向量检索完整文档 · 向量索引 · 全文检索 + 向量混合搜索最佳实践


External Function — 调用外部 AI 服务

将阿里云函数计算、腾讯云 SCF 等 HTTP 服务注册为 SQL 函数,在查询中直接调用视觉识别、语音转写、自定义模型等能力。

External Function 介绍 · 开发指南(Python) · 使用指南


语义视图 — 为 AI Agent 和 BI 工具提供语义层

将多表 JOIN 和聚合逻辑封装为业务语义,BI 工具和 AI Agent 通过语义视图访问数据,屏蔽底层表结构复杂度,统一指标口径。

语义视图概述 · 与 AI 功能集成 · 用 AI Agent 生成语义视图


Zettapark — Python 数据处理与 AI 推理

类 PySpark 的 Python 接口,在 Lakehouse 上运行 Python 脚本,适合特征工程、模型推理、复杂数据处理等 SQL 无法覆盖的场景。

Zettapark 快速上手 · 信用评分示例 · 特征工程示例


Data Engineering Agent — 用自然语言驱动数据平台

构建于 Lakehouse + Studio 之上的 AI 智能体,通过自然语言辅助完成 ETL 开发、任务管理、日常运维、数据源接入等工作,覆盖数据开发的全生命周期。用户可以用自然语言描述需求,由 Agent 协助完成任务拆解、工具调用和执行;具体能否直接执行变更,还取决于当前权限、工具开放范围和确认流程。

典型用法:

  • ETL 开发:描述数仓分层设计,自动生成建模规范文档和 SQL 代码
  • 临时取数:用自然语言提问,自动生成并执行 SQL,直接返回结果
  • 日常运维:分析失败任务、定位根因、量化下游影响、推荐修复方案
  • 任务管理:创建和配置 Studio 任务、设置调度和依赖关系
  • 数据源管理:接入和配置数据源、监控同步状态

Data Engineering Agent 完整文档


典型场景

RAG 知识库问答:文档入库 → 向量化 → 向量索引 → 用户提问时召回相关片段 → AI_COMPLETE 生成回答 → 向量检索指南 · 混合检索最佳实践

批量文本处理:评论情感分析、合同信息抽取、多语言翻译 → AI Functions 概述

AI 增强 BI:语义视图统一指标口径,Data Analytics Agent 自然语言查数据 → 语义视图最佳实践

图像 / 多模态处理:调用视觉 API 做图像分类、OCR → 利用 Hugging Face 图片识别模型处理图片数据

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询