Datus与云器Lakehouse集成介绍
什么是Datus
Datus是一个开源的数据工程智能体(open-source data engineering agent),专为数据系统构建可演化的上下文环境。Datus代表了数据工程的范式转变:从传统的"构建表和数据管道"转向"为分析师和业务用户提供具有领域感知能力的智能代理"。
命令行方式快速一览:

Web方式快速一览:

核心组件
Datus-CLI: 面向数据工程师的AI驱动命令行界面,可以理解为"数据工程师的Claude Code"。主要功能包括:
- 交互式SQL编写: 通过自然语言生成和优化SQL查询
- 子代理构建: 创建专门领域的智能代理(subagents)
- 上下文构建: 交互式地为数据系统构建和演化上下文知识
Datus-Chat: Web聊天机器人,为数据分析师提供:
- 多轮对话: 持续的数据探索和分析对话
- 反馈机制: 内置点赞、问题报告、成功案例等反馈系统
- 用户友好: 为非技术用户优化的界面体验
Datus-API: 为其他智能体或应用程序提供稳定、准确的数据服务API
技术特性
- 多AI模型支持: 集成通义千问、DeepSeek、OpenAI、Claude等多种AI模型
- 可扩展架构: 支持MCP(Model Context Protocol)工具集成
- 多数据源连接: 支持各种数据库和数据仓库平台
- 中文优化: 针对中文语境和使用习惯进行了专门优化
集成架构
┌─────────────────────────────────────────────────────────────────┐
│ User Interface Layer │
├──────────────────────────────┬──────────────────────────────────┤
│ Datus-CLI │ Datus-Chat │
│ (Command Line) │ (Web Interface) │
│ ┌─────────────────────────┐ │ ┌─────────────────────────────┐ │
│ │ • Natural Lang Query │ │ │ • Multi-turn Conversations │ │
│ │ • SQL Generation │ │ │ • Subagent Selection │ │
│ │ • MCP Tool Invocation │ │ │ • Feedback Mechanisms │ │
│ └─────────────────────────┘ │ └─────────────────────────────┘ │
└──────────────────────────────┴──────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ Datus Agent Core │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────────┐ │
│ │ AI Models │ │ Subagents │ │ Context Management │ │
│ │ │ │ │ │ │ │
│ │ • Qwen │ │ • lakehouse │ │ • Database Schema │ │
│ │ • DeepSeek │ │ • mcp_agent │ │ • Query History │ │
│ │ • OpenAI │ │ │ │ • Embedding Vectors │ │
│ │ • Claude │ │ │ │ • Knowledge Base │ │
│ └─────────────┘ └─────────────┘ └─────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
│
┌────────────────┴────────────────┐
▼ ▼
(Datus-ClickZetta) (MCP Protocol)
┌─────────────────────────┐ ┌─────────────────────────┐
│ Data Layer │ │ Tool Extension │
├─────────────────────────┤ ├─────────────────────────┤
│ ClickZetta Lakehouse │◄─────┤ ClickZetta MCP Server │
│ │ │ │
│ ┌─────────────────────┐ │ │ ┌─────────────────────┐ │
│ │ • Data Storage │ │ │ │ • Instance Mgmt │ │
│ │ • Compute Engine │ │ │ │ • Job Monitoring │ │
│ │ • SQL Execution │ │ │ │ • System Ops │ │
│ │ • Metadata Mgmt │ │ │ │ • Analytics │ │
│ └─────────────────────┘ │ │ └─────────────────────┘ │
│ │ │ │
│ Connection: │ │ Connection: │
│ • Service Endpoint │ │ • HTTP Transport │
│ • Username/Password │ │ • SSE Transport │
│ • Instance/Workspace │ │ • Tool Filtering │
└─────────────────────────┘ └─────────────────────────┘
架构说明
用户交互层:
- Datus-CLI: 为数据工程师提供命令行交互方式
- Datus-Chat: 为数据分析师和业务用户提供Web界面
Datus Agent核心:
- AI模型层: 支持多种大语言模型,可根据任务类型选择最适合的模型
- 子代理管理: 不同的智能代理负责不同的业务场景
- 上下文管理: 维护数据系统的知识图谱和查询上下文
数据层:
- 云器Lakehouse: 提供数据存储、计算和SQL执行能力
工具扩展层:
- 云器Lakehouse MCP Server: 云器Lakehouse官方提供的MCP服务器,通过标准化协议扩展系统能力,提供高级管理和分析工具
连接关系说明
- Datus ↔ 云器Lakehouse: 通过 Datus-ClickZetta 连接器实现数据库连接,支持SQL查询执行和元数据获取
- Datus ↔ 云器Lakehouse MCP Server: 通过 MCP协议 连接,调用高级管理和分析工具
- 云器Lakehouse MCP Server ↔ 云器Lakehouse: MCP Server作为云器Lakehouse的扩展服务,可以访问和管理底层数据平台
集成价值
Datus + 云器Lakehouse
云器Lakehouse作为现代化的数据湖仓一体平台,具有强大的数据处理和存储能力。与Datus集成后:
- 降低使用门槛: 业务用户无需学习SQL,即可直接查询和分析海量数据
- 提高分析效率: 自然语言查询大幅减少了数据探索的时间成本
- 智能化洞察: AI驱动的查询优化和结果解释,帮助用户更好理解数据
- 中文友好: 针对中文语境优化,更适合国内用户使用习惯
Datus + 云器Lakehouse MCP Server
通过云器Lakehouse官方提供的MCP Server集成,进一步扩展了系统能力:
- 实例管理: 智能切换不同的云器Lakehouse实例和环境
- 作业监控: 查询和分析SQL作业的执行历史和性能指标
- 系统运维: 通过自然语言进行系统状态查询和配置管理
- 高级分析: 利用专门的分析工具进行深度数据洞察
- 工作流自动化: 将复杂的数据处理流程封装为简单的自然语言指令
适用场景
- 数据分析师: 快速探索和分析业务数据,生成报表和洞察
- 业务用户: 无技术背景的用户也能轻松查询所需数据
- 数据工程师: 通过MCP工具进行系统管理和作业监控
- 决策者: 快速获取关键业务指标和趋势分析
本指南最后更新时间: 2025年11月