数据源管理
简介
本文档旨在指导用户如何配置和管理数据源,以便在 Lakehouse 产品中实现高效的数据同步任务。通过本文档,你将了解如何添加不同类型的数据源,并通过 SSH Tunnel 连接 VPC 内的数据源。
操作步骤
-
登录与访问数据源管理页面
首先,登录Lakehouse产品控制台。在控制台首页,选择“管理”模块,点击进入“数据源”页面。你将看到一个数据源列表,显示了当前已配置的所有数据源。

-
新建数据源
在数据源列表页面,点击右上角的“新建数据源”按钮。此时,你需要选择数据源类型。Lakehouse 支持多种数据源类型,包括但不限于 MySQL、Oracle、SQL Server 等。

-
填写数据源定义并进行连通性测试
根据你选择的数据源类型,填写相应的连接信息。例如,对于 MySQL 数据源,你需要提供数据库地址、端口、用户名、密码等信息。填写完毕后,点击“测试连接”按钮,以确保所填写的信息正确无误。

-
授权给工作空间使用
在数据源配置页面的底部,找到"可用工作空间"设置。这一步决定了哪些工作空间可以在数据同步任务中看到并使用这个数据源。
- 指定工作空间:仅授权选中的工作空间使用此数据源,适合按团队或项目隔离数据源访问的场景。
- 全部工作空间:允许实例下所有工作空间访问此数据源,适合共享型数据源(如公司统一的订单库)。
通过 SSH Tunnel 连接
当数据源位于 VPC 内网、无法通过公网直接访问时,你可以在数据源配置中启用”通过 SSH Tunnel 连接”选项,经由一台具备公网访问能力的跳板机(如阿里云 ECS、腾讯云 CVM、AWS EC2)建立安全隧道,间接访问内网数据源。
前置条件
-
跳板机准备
在目标数据源所在的 VPC 内准备一台服务器作为跳板机,需同时满足:
- 具备公网 IP 或弹性公网 IP,可被数据集成服务通过公网访问
- 可通过内网 IP 或域名访问目标数据源
- 已开放 SSH 端口(默认 22)
-
数据源内网可达
确保目标数据源不对外公开,仅提供内网访问。跳板机应能通过内网地址正常连接数据源。
SSH 隧道参数
启用”通过 SSH Tunnel 连接”后,在页面中填写以下信息:
- SSH 服务地址:跳板机的公网 IP 地址或域名。
- SSH 端口:跳板机 SSH 服务的端口号,默认为
。22 - SSH 用户名:跳板机的 SSH 登录用户名。
- SSH 密码:跳板机 SSH 登录用户名对应的密码。
完成以上配置后,点击”测试连接”。如果连接成功,说明数据同步服务可以通过跳板机安全访问 VPC 内的数据源。
使用示例
示例1:连接阿里云RDS for MySQL数据库
- 在数据源类型选择页面,选择“MySQL”作为数据源类型。
- 在数据源定义页面,填写以下信息:
- 主机名/地址:填写阿里云 RDS for MySQL 的内网 IP 地址。
- 端口:填写MySQL数据库的端口号(默认为3306)。
- 用户名:填写数据库的访问用户名。
- 密码:填写对应的用户密码。
- 启用“通过 SSH Tunnel 连接”选项,并填写跳板机 SSH 连接信息。
- 点击“测试连接”,确认连接成功后,点击“保存”按钮完成数据源配置。
示例2:连接Oracle数据库
- 在数据源类型选择页面,选择“Oracle”作为数据源类型。
- 在数据源定义页面,填写以下信息:
- 主机名:填写 Oracle 数据库的内网 IP 地址。
- 端口:填写Oracle数据库的端口号(默认为1521)。
- 用户名:填写数据库的访问用户名。
- 密码:填写对应的用户密码。
- 启用“通过 SSH Tunnel 连接”选项,并填写跳板机 SSH 连接信息。
- 点击“测试连接”,确认连接成功后,点击“保存”按钮完成数据源配置。
