云器科技-文档

简介

在数据工程和 AI 驱动的自动化时代，Model Context Protocol（MCP）正在改变我们与数据平台交互的方式。云器 MCP-Server 作为一个强大的集成方案，让 AI Agent 能够直接操作数据湖仓、创建任务、管理调度，实现真正的"对话式数据工程"。

本文将深入解析云器Lakehouse MCP-Server 的架构设计、核心能力，并提供详尽的实战指南，帮助数据工程师和 AI 开发者快速上手这一创新工具。

一、什么是 MCP Server？

1.1 MCP 协议简介

Model Context Protocol（MCP）是 Anthropic 推出的开放协议，旨在标准化 AI 模型与外部工具、数据源之间的交互方式。通过 MCP，AI Agent 可以：

访问外部数据源：数据库、API、文件系统等
执行操作：创建任务、运行查询、管理资源
获取上下文：理解业务逻辑、表结构、依赖关系

1.2 云器 Lakehouse MCP-Server 的定位

云器Lakehouse MCP-Server 是专为云器Lakehouse数据平台设计的 MCP服务。接入该服务后，您可以直接在第三方AI Agent内通过输入自然语言的方式，直接操作产品功能，而无需关注过多的产品操作细节。

目前该服务提供了40+ 专业工具：覆盖 SQL 查询、任务创建、运维管理、数据质量多个场景。

二、快速开始：配置你的第一个 MCP Server

2.1 环境准备

推荐工具：

Claude Desktop：原生支持 MCP
Cherry Studio：开源 AI 客户端，支持 MCP 配置

前置要求：

云器lakehouse 账号及 Personal Access Token（PAT）
目标工作空间（Workspace）和项目（Project）的访问权限
Node.js 环境（用于运行 mcp-remote）

2.2 Claude Desktop 配置详解

步骤 1：定位配置文件

在 Claude Desktop 的 Settings 中找到 Local MCP servers 配置入口，点击 Edit Config 打开 claude_desktop_config.json 文件。

配置文件路径通常为：

macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows: %APPDATA%\Claude\claude_desktop_config.json

步骤 2：配置测试环境

在产品内，点击左下角个人信息「Lakehouse MCP」
Studio产品首页_AI菜单_「MCP Server」
预览


{  "clickzetta-http": {   
 "command": "npx",   
 "args":  [     
 "-y", "mcp-remote",   
   "https://cn-shanghai-alicloud-mcp.clickzetta.com/mcp",   
   "--allow-http",  
    "--transport", "http",    
  "--header", "x-Lakehouse-Token: Bearer <your_pat>"    ]  }}

2.3 Cherry Studio 配置

如果使用 Cherry Studio：

打开设置 → MCP → 点击 添加服务器
配置如下：
1. 名称：Clickzetta MCP
2. 类型：可流式传输的 HTTP (streamableHttp)
3. URL：https://cn-shanghai-alicloud-mcp.clickzetta.com/mcp
4. 请求头（每行一个）：


 x-Lakehouse-Token=Bearer <your_pat>
x-Lakehouse-Region= cn-shanghai-alicloud

2.4 验证配置

重启 Claude Desktop 或 Cherry Studio，在对话框中输入：


列出当前工作空间中的所有文件夹

如果返回文件夹列表，说明配置成功！

三、工具列表介绍

一、查询工具


工具名称	功能描述
LH-execute_read_query	执行只读SQL查询并返回结果，支持自动结果限制。支持SELECT、DESCRIBE/DESC、SHOW、EXPLAIN等语句。适合临时查询、数据探索、快速验证等场景
LH-execute_write_query	执行写操作SQL语句（INSERT/UPDATE/DELETE/CREATE/DROP等）。支持数据修改、对象创建删除、权限管理等操作。写操作不可逆，需谨慎使用
LH-show_object_list	列出Lakehouse数据库对象，无需构造SQL，避免SQL方言问题。支持智能过滤、统计分析和过滤建议。可列出WORKSPACES、TABLES、VIEWS、SCHEMAS、FUNCTIONS、VCLUSTERS等对象

二、Studio任务管理工具


工具名称	功能描述
create_task	在Clickzetta Studio项目中创建新任务，支持SQL、Shell、Python、数据集成、Notebook等多种任务类型，返回可直接打开任务的studio_url链接
get_task_detail	获取任务的详细信息，包括任务名称、类型、所有者、描述、内容、版本和配置等元数据，返回studio_url供用户打开
list_clickzetta_tasks	列出任务列表，支持按文件夹、名称、类型筛选。返回草稿任务、已提交任务等所有状态的任务
save_non_integration_task_content	保存非数据集成任务的内容（SQL脚本、Shell脚本、Python代码等），支持参数化配置，返回studio_url
save_integration_task	保存完整的数据集成任务配置，自动处理表检查、元数据获取、自动建表等流程，返回studio_url
get_file_configuration_detail	获取任务的配置详情，返回完整配置信息和可用于save_task_configuration的输入参数块
save_task_configuration	保存任务的调度配置，包括Cron表达式、重试策略、有效期、依赖关系等。对集成任务会自动检查Sync VCluster
publish_task	将任务发布到调度器，使其可以按计划执行。发布前必须保存任务内容和配置。需用户确认后才执行
execute_task	异步执行数据任务，支持数据集成和Lakehouse SQL任务。自动解析任务内容、处理变量、选择VC、提交执行并轮询状态

三、任务运行与监控工具


工具名称	功能描述
list_task_run	列出符合条件的任务运行记录（支持分页）。支持按项目、任务类型、任务名、运行类型、计划时间、状态等筛选
get_task_run_stats	获取任务运行统计信息（按任务聚合）。支持按项目、任务类型、运行类型、时间范围、状态等筛选。适合回答"执行情况如何"等统计类问题
list_executions	列出特定任务运行下的执行记录（支持分页）。每个任务运行可能有多次执行
get_execution_log	获取特定执行的日志内容，支持从头部、尾部或指定偏移位置查询日志
get_task_instance_detail	获取任务实例的执行状态和详细信息，包括状态、时间、错误信息等，用于调试和状态检查

四、任务依赖与统计工具


工具名称	功能描述
get_published_task_dependencies	获取已发布任务的上下游依赖关系树，支持配置上游和下游的层级深度
get_task_run_dependencies	获取任务运行实例的上下游依赖关系树，支持配置上游和下游的层级深度
get_task_statistics	获取按任务聚合的统计信息，支持按项目、任务类型、编辑状态、所有者等筛选。适合回答"有多少任务"等统计类问题

五、数据源与元数据工具


工具名称	功能描述
list_data_sources	列出项目中所有可用的数据源配置，包括MySQL、PostgreSQL、Kafka、Hive、ClickHouse等。支持按名称和类型筛选，强烈建议使用过滤参数
list_namespaces	列出指定数据源中的命名空间（Schema/Database）列表，支持模糊匹配过滤
list_metadata_objects	列出指定命名空间中的数据对象（表/视图/集合），支持模糊匹配过滤
get_metadata_detail	获取指定数据对象的详细元数据信息，包括列名、数据类型、约束等

六、文件夹管理工具


工具名称	功能描述
create_folder	在指定父文件夹下创建新文件夹，用于组织任务结构
list_folders	列出文件夹，支持按父文件夹、名称、类型筛选和分页。需递归查询所有层级才能发现全部任务

七、补数据管理工具


工具名称	功能描述
list_backfill_tasks	列出补数据（complement）任务，支持按项目、时间范围、状态、提交者、任务名筛选，支持分页
get_backfill_task_detail	获取补数据任务的完整元数据和配置信息
list_backfill_instances	列出特定补数据任务下的实例列表，支持按状态和任务名筛选，支持分页

八、数据质量检查工具


工具名称	功能描述
create_dqc_rule	创建并可选执行数据质量检查规则。支持内置指标（行数、空值、均值等）和自定义SQL。支持手动触发、定时调度、任务关联等触发方式

九、CDC实时同步工具


工具名称	功能描述
save_cdc_realtime_task	保存多表实时CDC（变更数据捕获）任务配置。支持MySQL、PostgreSQL、SQL Server等源到Lakehouse/Kafka的实时同步，自动建表，支持全量+增量模式

十、语义视图工具


工具名称	功能描述
LH-desc-logical-table	获取语义视图中逻辑表的定义，包括关联的物理表和维度信息
LH-desc-semantic-view	返回语义视图的YAML格式定义（Snowflake Cortex Analyst格式）
LH-create-semantic-view	从YAML定义创建语义视图（Snowflake Cortex Analyst格式），支持IF NOT EXISTS选项
LH-brief-semantic-view	以简洁格式描述语义视图的字段信息
LH-semantic-view-dim-add	向语义视图添加维度字段
LH-semantic-view-dim-del	从语义视图删除维度字段
LH-get_semantic_view_dims	获取语义视图的所有维度信息
LH-query-semantic-value	基于自然语言查询语义视图数据，通过指定维度、指标和过滤条件来获取数据

十一、知识库与技能工具


工具名称	功能描述
find_helpful_skills	【最高优先级】搜索远程技能库，返回排序的候选技能及分步指导。处理任何请求时必须首先调用此工具
read_skill_document	读取技能中的特定文档（脚本、参考、示例）。不带路径调用时列出所有可用文件
list_skills	列出知识库中所有可用的Clickzetta公司技能，用于探索或验证已加载的技能
get_product_knowledge	搜索Clickzetta产品文档（Lakehouse和Studio规范知识库），用于获取技术文档和产品知识
put_knowledge	向知识库存入文本知识条目并创建索引，支持向量和标量索引
search_knowledge	从知识库搜索文本知识条目（仅限手动输入和标注的知识，包括成功案例和反馈）

联系我们