AI 函数
概述
云器 Lakehouse 提供了一套开箱即用的 AI 函数能力,使用户能够在 SQL 查询中直接利用大语言模型(LLM)和机器学习模型来完成文本生成、语义理解、向量检索等任务,无需构建和维护复杂的模型推理基础设施。
云器 Lakehouse 的 AI 函数体系分为两大类:
一、内置 AI 函数(Built-in AI Functions)
内置 AI 函数是云器 Lakehouse 平台原生提供的、可在 SQL 中直接调用的函数。用户无需创建外部连接或部署远程服务,即可快速使用平台预集成的 AI 模型能力。内置 AI 函数当前包括:
AI_COMPLETE
AI_COMPLETE 函数用于调用大语言模型(LLM)执行文本生成与理解任务。用户只需在 SQL 中指定模型名称和提示词(Prompt),即可获得模型的文本生成结果。该函数适用于广泛的自然语言处理场景,包括但不限于:文本摘要与总结、文本分类与情感分析、信息抽取与实体识别、文本翻译、基于上下文的问答,以及其他通用的文本生成任务。详细用法请参考:
AI_EMBEDDING
AI_EMBEDDING 函数用于调用文本嵌入(Embedding)模型,将输入文本转换为高维向量表示(即文本嵌入向量)。生成的向量可用于语义相似度计算、向量检索(Semantic Search)、聚类分析、推荐系统等场景。结合云器 Lakehouse 的向量数据类型与向量索引能力,用户可以构建端到端的语义搜索与知识库。详细用法请参考:
二、外部 AI 函数(External AI Functions)
对于内置 AI 函数尚未覆盖的场景,或用户需要调用自定义模型、私有化部署的模型服务时,云器 Lakehouse 提供了基于外部函数(External Function)框架的扩展能力。
外部函数(亦称远程函数,Remote Function)是一种特殊的自定义函数(UDF),它允许用户通过 Python 或 Java 语言定义函数逻辑,但其核心计算任务会被卸载(offload)到外部的远程服务执行(支持的远程服务包括:阿里云的函数计算 FC、腾讯云的云函数 SCF 等)。在执行过程中可调用:
- 在线服务: 以 API 形式对外提供的在线服务,如 AI 在线模型服务(例如大语言模型 API、云平台提供的在线 AI API 服务)。
- 离线功能: 将特定功能函数代码、依赖库、模型和数据等文件打包成的离线服务包,如从 Hugging Face 下载的图像识别模型等。
云器 Lakehouse 通过创建 API CONNECTION,在元数据中保存外部函数计算服务的连接和访问信息。外部函数通过 HTTP 协议调用外部函数计算服务,实现数据处理并返回结果。
Lakehouse 平台在获得用户预先授权后,于创建外部函数时,将自动在客户账号下的函数计算服务中部署函数。当用户在 SQL 查询中使用外部函数时,由外部函数实现与外部计算服务的安全连接、数据处理并返回查询结果。请参考:使用流程: External Function。使用外部函数开发 AI 函数,请参考以下开发指南:
三、内置 AI 函数与外部 AI 函数的对比
| 对比维度 | 内置 AI 函数 | 外部 AI 函数 |
|---|---|---|
| 使用门槛 | 开箱即用,可调用 AI Gateway 中预集成的模型,也通过创建 API Connection 调用指定模型 | 需要创建 API CONNECTION 并配置云厂商外部函数计算服务的角色授权 |
| 支持模型 | 可调用预集成的主流大语言模型和嵌入模型 | 用户可自定义调用任意模型服务(含私有化部署模型) |
| 适用场景 | 通用嵌入、模型推理、图像处理、音频处理等高级或特殊场景 | 自定义模型推理、图像处理、音频处理等高级或特殊场景 |
| 扩展性 | 以平台提供的模型和函数为准 | 高度灵活,可自行编写 Python/Java 逻辑 |
