生态体系

云器 Lakehouse 与主流数据集成、BI、AI 和开发工具均已适配,部署在阿里云、腾讯云、AWS 等七朵公有云上。本文档按方向汇总已验证的第三方工具和连接方案。

如果你需要的工具不在列表中,不代表不支持——Lakehouse 通过 JDBC、MySQL 协议和 Python/Java SDK 提供标准接入,任何兼容这些协议的工具都可以直接连接。如果你希望基于 Lakehouse 开发新的连接器或集成方案,也可以联系我们的合作伙伴团队。

云平台(CSP)

Lakehouse 部署在阿里云、腾讯云、AWS、GCP、华为云、百度智能云和火山引擎七朵云上。其中阿里云、腾讯云和 AWS 提供完整的独立文档(含存储连接、私网连接和权限配置),其余云平台的配置方式一致。同时支持 BYOS(自带存储)部署——数据存储在用户自己的云账号下,不经过云器平台。详见 支持云服务和地域 · 私有存储概述


数据集成(Data Integration)

以下数据集成工具已适配 Lakehouse,覆盖离线批量、实时 CDC、消息流和日志采集等场景。Lakehouse 同时支持 50+ 数据源(MySQL、Oracle、PostgreSQL、MongoDB、Hive、MaxCompute 等),通过 Studio 数据同步直接接入,无需第三方工具:

工具连接方式说明参考文档
Apache KafkaKafka Connector消息流实时写入 LakehouseKafka 数据源
AutoMQKafka 协议新一代消息队列,兼容 Kafka 协议AutoMQ 数据源
AirbyteJDBC开源 ELT 平台,连接器丰富Airbyte 集成指南
DataX插件式阿里开源,适合批量数据同步DataX 集成指南
Apache FlinkFlink Connector流计算引擎,实时写入 LakehouseFlink Connector
Apache SparkSpark Connector大规模数据读写 Lakehouse 表Spark Connector
LogstashLogstash Connector日志数据导入 LakehouseLogstash 集成指南
Bluepipe原生接入Oracle 到 Lakehouse 的 CDC 实时同步Bluepipe 同步指南

BI 与可视化

以下 BI 工具已适配 Lakehouse。任何支持 JDBC、ODBC 或 MySQL 协议的 BI 工具均可直接连接,不限于以下列表:

工具连接方式说明参考文档
帆软 FineBIJDBC / MySQL国内主流 BIJDBC 连接 · MySQL 协议
TableauJDBC适合复杂可视化和探索分析Tableau 连接指南
PowerBIMySQL 协议通过 MySQL 协议连接PowerBI 连接指南
Apache SupersetSQLAlchemy开源,适合自助分析Superset 连接指南
MetabaseJDBC开源,部署简单,适合中小团队Metabase 连接指南
Apache ZeppelinJDBCNotebook 风格数据探索Zeppelin 连接指南
RathJDBC开源智能分析,支持自动洞察Rath 连接指南
StreamlitPython SDK数据科学团队快速搭建数据应用Streamlit 连接指南

数据加工与计算引擎(Transformation & Compute)

以下数据转换工具和计算引擎已适配 Lakehouse:

工具连接方式说明参考文档
dbtdbt-clickzetta adapter数据建模和转换,支持 Dynamic Table 物化dbt 集成指南
Apache SparkSpark Connector大规模批处理和机器学习Spark Connector
Apache FlinkFlink Connector实时流计算Flink Connector

dbt 系列文档覆盖从快速入门到迁移实战的全部场景:jaffle-shop 体验、Snowflake/BigQuery 迁移、增量处理、实时管道、数据质量测试。详见 DBT 实战系列


AI 与机器学习

以下 AI 框架和平台已适配 Lakehouse,支持向量存储、RAG 应用和 AI 工作流等场景:

工具集成方式说明参考文档
LangChainPython SDK向量存储和 RAG 应用开发LangChain 集成
LlamaIndexPython SDK数据索引和检索LlamaIndex 集成
DifyMCP Server / SDK向量数据库 + 文件存储Dify 集成概览
N8NMCP Server统一 AI 工作流N8N 集成
MindsDBJDBCML/LLM 对 Lakehouse 数据建模和预测MindsDB 集成
DatusMCP Server数据工程智能体Datus 集成
Zilliz联合方案向量数据库联合方案Zilliz 联合方案
Unstructured.ioSDK非结构化文档解析和向量化Unstructured.io 集成

Lakehouse 同时提供 MCP Server,可以被任意支持 MCP 协议的 AI Agent 调用。


开发接口(Programmatic Interfaces)

Lakehouse 提供以下原生编程接口和 SDK:

接口语言说明参考文档
JDBC 驱动Java / JVM标准 JDBC 接口,兼容所有 JVM 生态JDBC 驱动
MySQL 协议所有无客户端依赖,兼容 MySQL 生态MySQL 协议连接
Python SDKPythonPEP 249 兼容,支持批量/实时写入Python SDK
Java SDKJava支持 BulkLoad 和实时流写入Java SDK 批量上传
SQLAlchemyPythonPython 生态标准 ORM / SQL 工具SQLAlchemy 连接
cz-cliShell命令行客户端,SQL + Studio Tasks + AI Agentcz-cli 指南

SQL 客户端与数据库管理工具

这些工具通过 JDBC 或 MySQL 协议连接,兼容标准 SQL 操作:

工具连接方式说明参考文档
DBeaverJDBC开源免费,社区版即可,适合日常查询和数据探索DBeaver 连接指南
DataGripJDBCJetBrains 出品,代码补全和 SQL 分析能力强DataGrip 连接指南
SQL Workbench/JJDBC轻量级,基础 SQL 执行SQL Workbench/J 连接指南
NavicatMySQL 协议可视化管理,操作直观Navicat 连接指南

数据湖格式

Lakehouse 原生基于 Apache Iceberg,表以 Iceberg 格式存储,支持时间旅行、分区演进、Schema 演进和跨引擎访问。同时通过外部表兼容 Delta Lake 和 Hudi 格式:

格式关系说明参考文档
Apache Iceberg原生格式所有 Lakehouse 表的底层格式,跨引擎访问Spark + Iceberg 分析
Delta Lake外部表Databricks 生态的开放表格式Delta Lake 外部表
Apache Hudi外部表适用于流式写入的开放表格式Hudi 外部表

联邦查询:通过 External Catalog 直接查询 Hive、Databricks、Snowflake OpenCatalog 中的 Iceberg 表,无需迁移数据。详见 联邦查询


现代数据栈(Modern Data Stack)

以下组合方案展示如何用 Lakehouse + 生态工具构建完整数据平台:

方案工具链参考文档
面向 ELTAirbyte → Lakehouse → dbt → MetabaseELT 现代数据栈
面向分析Lakehouse ← dbt → Superset分析现代数据栈
BI + AILakehouse + ZillizBI + AI 联合方案

快速导航

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询