概述

数据同步是云器 Lakehouse 内置的高效数据集成服务,支持在多种数据源之间同步数据,并利用调度系统创建自动化的同步任务。通过数据同步功能,用户无需编写代码,只需通过简单的向导式操作即可实现快速导入 Lakehouse、导出加工后数据或进行不同数据源之间的数据同步。

基本概念

数据同步任务

数据同步任务是用于从数据源采集数据并写入目标数据源的一种任务类型。根据数据同步的时效性,数据同步任务可分为离线同步任务和实时同步任务。在 Lakehouse Studio 中,数据同步任务通过界面配置实现任务定义和调度配置,无需编写代码。

Lakehouse Studio 目前支持离线周期同步和实时同步两大类同步任务类型。在“开发 > 任务”中点击新建按钮,按需选择合适的任务类型。

一个数据同步任务包含以下核心组件:

  1. 数据来源:同步任务的数据来源,包括数据库、文件系统、SaaS/应用、Lakehouse 空间数据源等。数据来源由数据源进行定义和管理。
  2. 数据对象:同步任务需要处理的数据来源下的数据对象,如数据库表、消息队列 Topic、文件系统文件等。
  3. 对象及 Schema 映射:定义来源数据对象与目标数据对象及其 Schema 之间的映射关系。
  4. 数据目标:数据写入的目标数据源,包括 Lakehouse 及其他外部数据源。
  5. 任务设置:影响任务运行的规则设置,如容错规则、并发设置、流量控制等。
  6. 调度配置:任务调度运行的规则及策略。

数据源

数据源是定义外部服务连接信息的对象,包括服务地址、认证信息、连接方式等。定义好的数据源可以在数据同步任务中作为数据来源或数据目标使用。数据源位于“管理 > 数据源”功能菜单下。

使用示例

示例:从MySQL数据库同步数据到Lakehouse

假设您有一个 MySQL 数据库,其中包含客户订单数据。您希望将这些数据同步到 Lakehouse,以便进行数据分析和处理。

  1. 在 Lakehouse 中创建一个新的数据同步任务。
  2. 选择 MySQL 数据库作为数据来源,并指定相应的数据源连接信息。
  3. 选择需要同步的数据库表作为数据对象。
  4. 定义表结构及字段映射规则。
  5. 选择 Lakehouse 作为数据目标,并指定目标表。
  6. 根据需要配置任务设置和调度配置。
  7. 启动同步任务,数据将按照设定的规则从 MySQL 数据库同步到 Lakehouse。

通过以上示例,您可以看到 Lakehouse 数据同步功能可以帮助您轻松实现不同数据源之间的数据同步,无需编写复杂的代码。这将大大提高数据处理效率,让您专注于数据分析和业务决策。

详细的数据同步任务的创建和配置指南,请参考以下帮助文档:

联系我们
预约咨询
微信咨询
电话咨询