将数据导入云器 Lakehouse 的完整指南

概述

将数据导入云器 Lakehouse 的方法有很多种。不同的场景、要求、团队技能和技术栈选择都可能影响数据采集的决策。本快速入门将指导你完成使用不同方法加载相同数据的示例。

数据入仓

  • 通过云器 Lakehouse Studio 加载本地文件
  • 通过云器 Lakehouse Studio 批量加载(公网连接)
  • 通过云器 Lakehouse Studio 批量加载(私网连接)
  • 通过云器 Lakehouse Studio 实时多表加载(CDC)
  • 使用 ZettaPark SQL 导入数据
  • 使用 ZettaPark 从 DataFrame 导入数据
  • 来自 Kafka – 采用 ZettaPipe
  • 来自 Kafka – 外部表方式
  • 来自数据湖(对象存储)– SQL Volume 方式
  • 来自数据湖(对象存储)– SQL COPY INTO 方式
  • 来自 External Catalog (Hive) – SQL 方式
  • 从 Java SDK - 使用云器实时写入服务

数据入湖

  • 通过数据库客户端 DBV/SQLWorkbench PUT 文件的方式
  • 通过 ZettaPark PUT 文件的方式

在本指南结束时,你应该熟悉多种加载数据的方法,并能够根据你的目标和需求选择正确的模式。完成初始项目设置后,每种数据提取方法都可以单独进行,且彼此独立。

先决条件

  • 云器 Lakehouse 账户需具备创建用户、角色、工作空间、Schema、动态表、虚拟计算集群、数据同步与调度任务等能力。
  • 熟悉 SQL/Python、Kafka 和/或 Java,具体要求因数据加载方式而异。
  • Docker 基础知识
  • 能够在本地运行 Docker 或访问可运行 Kafka 及 Kafka Connector 的环境。

你将学到什么

  • 如何以及何时使用云器 Lakehouse Studio 进行离线数据同步
  • 如何以及何时使用云器 Lakehouse Studio 进行多表实时数据同步
  • 如何从数据湖导入数据
  • 如何以及何时从文件导入数据
  • 如何从 Kafka 加载数据
  • 如何从流中加载数据

需要什么

Mac 要求

Linux 要求

Windows 要求

联系我们
预约咨询
微信咨询
电话咨询
邮件咨询