将数据导入云器Lakehouse的完整指南
数据入仓:使用Lakehouse Studio实时同步导入Kafka数据
概述
使用场景
已有Kafka数据源,对数据同步延迟的实时性要求高,期待能实时同步到Lakehouse的表中、端到端秒级延迟。
实现步骤
导航到开发->任务,点击“+”,选择“实时同步”,新建一个“实时同步”作业。
主要配置如下:
在左侧选择源端Kafka数据源时,请配置正确的mode、groupId和codec。其中请特别注意groupId尽量不要在多个实时同步任务中复用,以避免相互干扰、同时消费数据使得目标数据出现丢失不全的情况。
然后在右侧选择Lakehouse目标端,选择已有的数据表,或者新建数据表(推荐使用):target_table_from_kafka。
在“新建数据表”SQL代码里,将表名改为“target_table_from_kafka”。
在“字段映射配置”区域,会默认使用Kafka Topic内置字段做数据字段映射。如果Topic内的消息格式为JSON,您还可以使用新增计算列方式,通过JSONPath规则解析value字段中的内容,比如通过下图所示的 [__value__].[accountId] 来提取源端topic中的 __value__ 里面的accountId字段、写入到目标端 __value__ 字段中。
在“同步规则配置”中,设定同步的最大并发数,可以通过并发可以增大消费的速度。
检查字段映射符合预期后,在配置中设定“集群”等必填信息,点击“确定”,然后点击“保存”来保存任务配置。
实时同步任务当前不支持直接运行测试,需要提交发布后,检查运行结果是否正常。
下一步建议
-
在运维中心,启动实时同步任务,观察任务运行指标并验证数据同步结果是否正常。
-
第一次启动时选择“无状态启动”的方式即可。
-
正常启动后,可以看到以下的监控指标,表示同步任务运行正常。
-
抽查目标表中的数据,和源端校验核对,是否符合预期
资料
联系我们