简介
在数据工程和 AI 驱动的自动化时代,Model Context Protocol(MCP)正在改变我们与数据平台交互的方式。云器 MCP-Server 作为一个强大的集成方案,让 AI Agent 能够直接操作数据湖仓、创建任务、管理调度,实现真正的"对话式数据工程"。
本文将深入解析 云器Lakehouse MCP-Server 的架构设计、核心能力,并提供详尽的实战指南,帮助数据工程师和 AI 开发者快速上手这一创新工具。
一、什么是 MCP Server?
1.1 MCP 协议简介
Model Context Protocol(MCP)是 Anthropic 推出的开放协议,旨在标准化 AI 模型与外部工具、数据源之间的交互方式。通过 MCP,AI Agent 可以:
- 访问外部数据源:数据库、API、文件系统等
- 执行操作:创建任务、运行查询、管理资源
- 获取上下文:理解业务逻辑、表结构、依赖关系
1.2 云器 Lakehouse MCP-Server 的定位
云器Lakehouse MCP-Server 是专为云器Lakehouse数据平台设计的 MCP服务。 接入该服务后,您可以直接在第三方AI Agent内通过输入自然语言的方式,直接操作产品功能,而无需关注过多的产品操作细节。
目前该服务提供了40+ 专业工具:覆盖 SQL 查询、任务创建、运维管理、数据质量多个场景。
二、快速开始:配置你的第一个 MCP Server
2.1 环境准备
推荐工具:
- Claude Desktop:原生支持 MCP
- Cherry Studio:开源 AI 客户端,支持 MCP 配置
前置要求:
- 云器lakehouse 账号及 Personal Access Token(PAT)
- 目标工作空间(Workspace)和项目(Project)的访问权限
- Node.js 环境(用于运行
mcp-remote)
2.2 Claude Desktop 配置详解
步骤 1:定位配置文件
在 Claude Desktop 的 Settings 中找到 Local MCP servers 配置入口,点击 Edit Config 打开 claude_desktop_config.json 文件。
配置文件路径通常为:
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json
步骤 2:配置测试环境
- 在产品内,点击左下角个人信息「Lakehouse MCP」
- Studio产品首页_AI菜单_「MCP Server」

2.3 Cherry Studio 配置
如果使用 Cherry Studio:
-
打开 设置 → MCP → 点击 添加服务器
-
配置如下:
- 名称:
Clickzetta MCP - 类型:
可流式传输的 HTTP (streamableHttp) - URL:
https://cn-shanghai-alicloud-mcp.clickzetta.com/mcp - 请求头(每行一个):
- 名称:
2.4 验证配置
重启 Claude Desktop 或 Cherry Studio,在对话框中输入:
如果返回文件夹列表,说明配置成功!
三、工具列表介绍
一、查询工具
| 工具名称 | 功能描述 |
| LH-execute_read_query | 执行只读SQL查询并返回结果,支持自动结果限制。支持SELECT、DESCRIBE/DESC、SHOW、EXPLAIN等语句。适合临时查询、数据探索、快速验证等场景 |
| LH-execute_write_query | 执行写操作SQL语句(INSERT/UPDATE/DELETE/CREATE/DROP等)。支持数据修改、对象创建删除、权限管理等操作。写操作不可逆,需谨慎使用 |
| LH-show_object_list | 列出Lakehouse数据库对象,无需构造SQL,避免SQL方言问题。支持智能过滤、统计分析和过滤建议。可列出WORKSPACES、TABLES、VIEWS、SCHEMAS、FUNCTIONS、VCLUSTERS等对象 |
二、Studio任务管理工具
| 工具名称 | 功能描述 |
| create_task | 在Clickzetta Studio项目中创建新任务,支持SQL、Shell、Python、数据集成、Notebook等多种任务类型,返回可直接打开任务的studio_url链接 |
| get_task_detail | 获取任务的详细信息,包括任务名称、类型、所有者、描述、内容、版本和配置等元数据,返回studio_url供用户打开 |
| list_clickzetta_tasks | 列出任务列表,支持按文件夹、名称、类型筛选。返回草稿任务、已提交任务等所有状态的任务 |
| save_non_integration_task_content | 保存非数据集成任务的内容(SQL脚本、Shell脚本、Python代码等),支持参数化配置,返回studio_url |
| save_integration_task | 保存完整的数据集成任务配置,自动处理表检查、元数据获取、自动建表等流程,返回studio_url |
| get_file_configuration_detail | 获取任务的配置详情,返回完整配置信息和可用于save_task_configuration的输入参数块 |
| save_task_configuration | 保存任务的调度配置,包括Cron表达式、重试策略、有效期、依赖关系等。对集成任务会自动检查Sync VCluster |
| publish_task | 将任务发布到调度器,使其可以按计划执行。发布前必须保存任务内容和配置。需用户确认后才执行 |
| execute_task | 异步执行数据任务,支持数据集成和Lakehouse SQL任务。自动解析任务内容、处理变量、选择VC、提交执行并轮询状态 |
三、任务运行与监控工具
| 工具名称 | 功能描述 |
| list_task_run | 列出符合条件的任务运行记录(支持分页)。支持按项目、任务类型、任务名、运行类型、计划时间、状态等筛选 |
| get_task_run_stats | 获取任务运行统计信息(按任务聚合)。支持按项目、任务类型、运行类型、时间范围、状态等筛选。适合回答"执行情况如何"等统计类问题 |
| list_executions | 列出特定任务运行下的执行记录(支持分页)。每个任务运行可能有多次执行 |
| get_execution_log | 获取特定执行的日志内容,支持从头部、尾部或指定偏移位置查询日志 |
| get_task_instance_detail | 获取任务实例的执行状态和详细信息,包括状态、时间、错误信息等,用于调试和状态检查 |
四、任务依赖与统计工具
| 工具名称 | 功能描述 |
| get_published_task_dependencies | 获取已发布任务的上下游依赖关系树,支持配置上游和下游的层级深度 |
| get_task_run_dependencies | 获取任务运行实例的上下游依赖关系树,支持配置上游和下游的层级深度 |
| get_task_statistics | 获取按任务聚合的统计信息,支持按项目、任务类型、编辑状态、所有者等筛选。适合回答"有多少任务"等统计类问题 |
五、数据源与元数据工具
| 工具名称 | 功能描述 |
| list_data_sources | 列出项目中所有可用的数据源配置,包括MySQL、PostgreSQL、Kafka、Hive、ClickHouse等。支持按名称和类型筛选,强烈建议使用过滤参数 |
| list_namespaces | 列出指定数据源中的命名空间(Schema/Database)列表,支持模糊匹配过滤 |
| list_metadata_objects | 列出指定命名空间中的数据对象(表/视图/集合),支持模糊匹配过滤 |
| get_metadata_detail | 获取指定数据对象的详细元数据信息,包括列名、数据类型、约束等 |
六、文件夹管理工具
| 工具名称 | 功能描述 |
| create_folder | 在指定父文件夹下创建新文件夹,用于组织任务结构 |
| list_folders | 列出文件夹,支持按父文件夹、名称、类型筛选和分页。需递归查询所有层级才能发现全部任务 |
七、补数据管理工具
| 工具名称 | 功能描述 |
| list_backfill_tasks | 列出补数据(complement)任务,支持按项目、时间范围、状态、提交者、任务名筛选,支持分页 |
| get_backfill_task_detail | 获取补数据任务的完整元数据和配置信息 |
| list_backfill_instances | 列出特定补数据任务下的实例列表,支持按状态和任务名筛选,支持分页 |
八、数据质量检查工具
| 工具名称 | 功能描述 |
| create_dqc_rule | 创建并可选执行数据质量检查规则。支持内置指标(行数、空值、均值等)和自定义SQL。支持手动触发、定时调度、任务关联等触发方式 |
九、CDC实时同步工具
| 工具名称 | 功能描述 |
| save_cdc_realtime_task | 保存多表实时CDC(变更数据捕获)任务配置。支持MySQL、PostgreSQL、SQL Server等源到Lakehouse/Kafka的实时同步,自动建表,支持全量+增量模式 |
十、语义视图工具
| 工具名称 | 功能描述 |
| LH-desc-logical-table | 获取语义视图中逻辑表的定义,包括关联的物理表和维度信息 |
| LH-desc-semantic-view | 返回语义视图的YAML格式定义(Snowflake Cortex Analyst格式) |
| LH-create-semantic-view | 从YAML定义创建语义视图(Snowflake Cortex Analyst格式),支持IF NOT EXISTS选项 |
| LH-brief-semantic-view | 以简洁格式描述语义视图的字段信息 |
| LH-semantic-view-dim-add | 向语义视图添加维度字段 |
| LH-semantic-view-dim-del | 从语义视图删除维度字段 |
| LH-get_semantic_view_dims | 获取语义视图的所有维度信息 |
| LH-query-semantic-value | 基于自然语言查询语义视图数据,通过指定维度、指标和过滤条件来获取数据 |
十一、知识库与技能工具
| 工具名称 | 功能描述 |
| find_helpful_skills | 【最高优先级】搜索远程技能库,返回排序的候选技能及分步指导。处理任何请求时必须首先调用此工具 |
| read_skill_document | 读取技能中的特定文档(脚本、参考、示例)。不带路径调用时列出所有可用文件 |
| list_skills | 列出知识库中所有可用的Clickzetta公司技能,用于探索或验证已加载的技能 |
| get_product_knowledge | 搜索Clickzetta产品文档(Lakehouse和Studio规范知识库),用于获取技术文档和产品知识 |
| put_knowledge | 向知识库存入文本知识条目并创建索引,支持向量和标量索引 |
| search_knowledge | 从知识库搜索文本知识条目(仅限手动输入和标注的知识,包括成功案例和反馈) |
联系我们
