将数据导入云器Lakehouse的完整指南

数据入仓：使用Lakehouse Studio实时同步导入Kafka数据

概述

使用场景

已有Kafka数据源，对数据同步延迟的实时性要求高，期待能实时同步到Lakehouse的表中、端到端秒级延迟。

实现步骤

导航到开发->任务，点击“+”，选择“实时同步”，新建一个“实时同步”作业。

主要配置如下：

在左侧选择源端Kafka数据源时，请配置正确的mode、groupId和codec。其中请特别注意groupId尽量不要在多个实时同步任务中复用，以避免相互干扰、同时消费数据使得目标数据出现丢失不全的情况。

然后在右侧选择Lakehouse目标端，选择已有的数据表，或者新建数据表（推荐使用）：target_table_from_kafka。

在“新建数据表”SQL代码里，将表名改为“target_table_from_kafka”。

在“字段映射配置”区域，会默认使用Kafka Topic内置字段做数据字段映射。如果Topic内的消息格式为JSON，您还可以使用新增计算列方式，通过JSONPath规则解析value字段中的内容，比如通过下图所示的 [__value__].[accountId] 来提取源端topic中的 __value__ 里面的accountId字段、写入到目标端 __value__ 字段中。

在“同步规则配置”中，设定同步的最大并发数，可以通过并发可以增大消费的速度。

检查字段映射符合预期后，在配置中设定“集群”等必填信息，点击“确定”，然后点击“保存”来保存任务配置。

实时同步任务当前不支持直接运行测试，需要提交发布后，检查运行结果是否正常。

下一步建议

在运维中心，启动实时同步任务，观察任务运行指标并验证数据同步结果是否正常。

预览
第一次启动时选择“无状态启动”的方式即可。

预览
正常启动后，可以看到以下的监控指标，表示同步任务运行正常。

预览
抽查目标表中的数据，和源端校验核对，是否符合预期

资料

实时同步任务

联系我们