Datus与云器Lakehouse集成介绍

什么是Datus

Datus是一个开源的数据工程智能体(open-source data engineering agent),专为数据系统构建可演化的上下文环境。Datus代表了数据工程的范式转变:从传统的"构建表和数据管道"转向"为分析师和业务用户提供具有领域感知能力的智能代理"。

命令行方式快速一览:

Web方式快速一览:

核心组件

Datus-CLI: 面向数据工程师的AI驱动命令行界面,可以理解为"数据工程师的Claude Code"。主要功能包括:

  • 交互式SQL编写: 通过自然语言生成和优化SQL查询
  • 子代理构建: 创建专门领域的智能代理(subagents)
  • 上下文构建: 交互式地为数据系统构建和演化上下文知识

Datus-Chat: Web聊天机器人,为数据分析师提供:

  • 多轮对话: 持续的数据探索和分析对话
  • 反馈机制: 内置点赞、问题报告、成功案例等反馈系统
  • 用户友好: 为非技术用户优化的界面体验

Datus-API: 为其他智能体或应用程序提供稳定、准确的数据服务API

技术特性

  • 多AI模型支持: 集成通义千问、DeepSeek、OpenAI、Claude等多种AI模型
  • 可扩展架构: 支持MCP(Model Context Protocol)工具集成
  • 多数据源连接: 支持各种数据库和数据仓库平台
  • 中文优化: 针对中文语境和使用习惯进行了专门优化

集成架构

┌─────────────────────────────────────────────────────────────────┐
│                      User Interface Layer                       │
├──────────────────────────────┬──────────────────────────────────┤
│         Datus-CLI            │         Datus-Chat               │
│      (Command Line)          │       (Web Interface)            │
│  ┌─────────────────────────┐ │  ┌─────────────────────────────┐ │
│  │ • Natural Lang Query    │ │  │ • Multi-turn Conversations  │ │
│  │ • SQL Generation        │ │  │ • Subagent Selection        │ │
│  │ • MCP Tool Invocation   │ │  │ • Feedback Mechanisms       │ │
│  └─────────────────────────┘ │  └─────────────────────────────┘ │
└──────────────────────────────┴──────────────────────────────────┘
                                │
                                ▼
┌─────────────────────────────────────────────────────────────────┐
│                     Datus Agent Core                            │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────────┐ │
│ │ AI Models   │ │ Subagents   │ │     Context Management      │ │
│ │             │ │             │ │                             │ │
│ │ • Qwen      │ │ • lakehouse │ │ • Database Schema           │ │
│ │ • DeepSeek  │ │ • mcp_agent │ │ • Query History             │ │
│ │ • OpenAI    │ │             │ │ • Embedding Vectors         │ │
│ │ • Claude    │ │             │ │ • Knowledge Base            │ │
│ └─────────────┘ └─────────────┘ └─────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
                                │
               ┌────────────────┴────────────────┐
               ▼                                 ▼
    (Datus-ClickZetta)                 (MCP Protocol)
┌─────────────────────────┐      ┌─────────────────────────┐
│      Data Layer         │      │    Tool Extension       │
├─────────────────────────┤      ├─────────────────────────┤
│  ClickZetta Lakehouse   │◄─────┤ ClickZetta MCP Server   │
│                         │      │                         │
│ ┌─────────────────────┐ │      │ ┌─────────────────────┐ │
│ │ • Data Storage      │ │      │ │ • Instance Mgmt     │ │
│ │ • Compute Engine    │ │      │ │ • Job Monitoring    │ │
│ │ • SQL Execution     │ │      │ │ • System Ops        │ │
│ │ • Metadata Mgmt     │ │      │ │ • Analytics         │ │
│ └─────────────────────┘ │      │ └─────────────────────┘ │
│                         │      │                         │
│ Connection:             │      │ Connection:             │
│ • Service Endpoint      │      │ • HTTP Transport        │
│ • Username/Password     │      │ • SSE Transport         │
│ • Instance/Workspace    │      │ • Tool Filtering        │
└─────────────────────────┘      └─────────────────────────┘

架构说明

用户交互层:

  • Datus-CLI: 为数据工程师提供命令行交互方式
  • Datus-Chat: 为数据分析师和业务用户提供Web界面

Datus Agent核心:

  • AI模型层: 支持多种大语言模型,可根据任务类型选择最适合的模型
  • 子代理管理: 不同的智能代理负责不同的业务场景
  • 上下文管理: 维护数据系统的知识图谱和查询上下文

数据层:

  • 云器Lakehouse: 提供数据存储、计算和SQL执行能力

工具扩展层:

  • 云器Lakehouse MCP Server: 云器Lakehouse官方提供的MCP服务器,通过标准化协议扩展系统能力,提供高级管理和分析工具

连接关系说明

  1. Datus ↔ 云器Lakehouse: 通过 Datus-ClickZetta 连接器实现数据库连接,支持SQL查询执行和元数据获取
  2. Datus ↔ 云器Lakehouse MCP Server: 通过 MCP协议 连接,调用高级管理和分析工具
  3. 云器Lakehouse MCP Server ↔ 云器Lakehouse: MCP Server作为云器Lakehouse的扩展服务,可以访问和管理底层数据平台

集成价值

Datus + 云器Lakehouse

云器Lakehouse作为现代化的数据湖仓一体平台,具有强大的数据处理和存储能力。与Datus集成后:

  1. 降低使用门槛: 业务用户无需学习SQL,即可直接查询和分析海量数据
  2. 提高分析效率: 自然语言查询大幅减少了数据探索的时间成本
  3. 智能化洞察: AI驱动的查询优化和结果解释,帮助用户更好理解数据
  4. 中文友好: 针对中文语境优化,更适合国内用户使用习惯

Datus + 云器Lakehouse MCP Server

通过云器Lakehouse官方提供的MCP Server集成,进一步扩展了系统能力:

  1. 实例管理: 智能切换不同的云器Lakehouse实例和环境
  2. 作业监控: 查询和分析SQL作业的执行历史和性能指标
  3. 系统运维: 通过自然语言进行系统状态查询和配置管理
  4. 高级分析: 利用专门的分析工具进行深度数据洞察
  5. 工作流自动化: 将复杂的数据处理流程封装为简单的自然语言指令

适用场景

  • 数据分析师: 快速探索和分析业务数据,生成报表和洞察
  • 业务用户: 无技术背景的用户也能轻松查询所需数据
  • 数据工程师: 通过MCP工具进行系统管理和作业监控
  • 决策者: 快速获取关键业务指标和趋势分析

本指南最后更新时间: 2025年11月

联系我们
预约咨询
微信咨询
电话咨询