概述

数据同步是云器Lakehouse内置的高效数据集成服务,支持在多种数据源之间同步数据并利用调度系统创建自动化的同步任务。通过数据同步功能,用户无需编写代码,只需通过简单的向导式操作即可实现快速导入Lakehouse、导出加工后数据或进行不同数据源之间的数据同步。

基本概念

数据同步任务

数据同步任务是用于从数据源采集数据并写入目标数据源的一种任务类型。根据数据同步的时效性,数据同步任务可分为离线同步任务和实时同步任务。在Lakehouse Studio中,数据同步任务通过界面配置实现任务定义和调度配置,无需编写代码。

Lakehouse Studio中目前支持离线周期同步和实时同步两大类同步任务类型。在“开发->任务”中的新建按钮,按需选择合适任务类型使用。

一个数据同步任务包含以下核心组件:

  1. 数据来源:同步任务的数据来源,包括数据库、文件系统、SaaS/应用、Lakehouse空间数据源等。数据来源由数据源进行定义和管理。
  2. 数据对象:同步任务需要处理的数据来源下的数据对象,如数据库表、消息队列Topic、文件系统文件等。
  3. 对象及Schema映射:定义来源数据对象与目标数据对象及其Schema之间的映射关系。
  4. 数据目标:数据写入的目标数据源,包括Lakehouse及其他外部数据源。
  5. 任务设置:影响任务运行的规则设置,如容错规则、并发设置、流量控制等。
  6. 调度配置:任务调度运行的规则及策略。

数据源

数据源是定义外部服务连接信息的对象,包括服务地址、认证信息、连接方式等。定义好的数据源可以在数据同步任务中作为数据来源或数据目标使用。数据源位于“管理->数据源”功能菜单下。

使用示例

示例:从MySQL数据库同步数据到Lakehouse

假设您有一个MySQL数据库,其中包含客户订单数据。您希望将这些数据同步到Lakehouse以便进行数据分析和处理。

  1. 在Lakehouse中创建一个新的数据同步任务。
  2. 选择MySQL数据库作为数据来源,并指定相应的数据源连接信息。
  3. 选择需要同步的数据库表作为数据对象。
  4. 定义表结构及字段映射规则。
  5. 选择Lakehouse作为数据目标,并指定目标表。
  6. 根据需要配置任务设置和调度配置。
  7. 启动同步任务,数据将按照设定的规则从MySQL数据库同步到Lakehouse。

通过以上示例,您可以看到Lakehouse数据同步功能可以帮助您轻松实现不同数据源之间的数据同步,无需编写复杂的代码。这将大大提高数据处理效率,让您专注于数据分析和业务决策。

详细的数据同步任务的创建和配置指南,请参考以下帮助文档:

联系我们
预约咨询
微信咨询
电话咨询