使用数据上传功能上传数据
您可以通过云器Lakehouse web界面上的「数据上传」功能向Lakehouse的表中添加数据。
使用说明
- 适合较小(不大于2GB)的本地文件(CSV、TXT、Parquet、AVRO、ORC)直接上传到云器Lakehouse的表中,无需编程实现,实现方式最简单。
- 当前仅支持一次上传一个文件
- 数据上传功能暂不支持对文件中的struct、map、array这三个数据类型的字段解析。
使用数据上传功能
使用数据上传时,您可以创建新表,也可以将数据上传到已有表上。
将数据上传到新表
在上传数据的时候,您通常可以同时为数据创建一个新表。
前提条件
您需要具备如下条件才可以使用该能力
- 您具有如下角色之一:workspace_admin、workspace_dev 、workspace_anylst
- 或者您具有如下权限点:create table、insert + update 、delect +insert+update
操作步骤
-
登陆云器Studio账号
-
在如下地方均可以点击「上传数据」
-
实例首页->数据上传
-
开发->数据树左侧
-
数据资产地图->数据上传
-
数据资产地图->数据管理->数据树->数据上传
-
-
可将本地文件通过拖拽,或者点击浏览本地系统上的文件的方式添加进来。 一次只能添加1个文件,同时大小不得超过2GB。
-
Schema:选择将表创建在某个schema下。
-
选择表:选择「新建表」并在后方输入新建表名。
-
集群:当前schema所在的工作空间下的可用集群。
-
数据导入方式:支持追加写入,和先清空后写入两种方式导入数据至新建表中。
-
信息全部确认后点击“下一步”,系统会基于已上传的文件信息,自动解析出文件中的字段信息
-
检查并判断自动解析出来的字段名称和字段类型等信息是否符合预期,确认无误后,点击「确认」即可完成新建表并上传数据的操作。
- 若发现字段解析有问题,可通过修改文件属性配置项,重新刷新获取自动解析后的字段名称、字段类型等信息。或自行修改字段名称或字段类型。
- 注意:有可能修改后的字段类型因与系统解析的不匹配导致无法上传成功。
将数据上传到已有表
前提条件
您需要具备如下条件才可以使用该能力
- 您具有如下角色之一:workspace_admin、workspace_dev 、workspace_anylst
- 或者您具有如下权限点:create table、insert + update 、delect +insert+update
操作步骤
-
登陆云器Studio账号
-
在如下地方均可以点击「上传数据」
- 开发->数据树->表->上传数据
- 数据资产地图->数据管理->数据树->表->上传数据
-
可将本地文件通过拖拽,或者点击浏览本地系统上的文件的方式添加进来。 一次只能添加1个文件,同时大小不得超过2GB
-
Schema:选择将表创建在某个schema下
-
选择表:选择「已有的表」
-
集群:当前schema所在的工作空间下的可用集群
-
数据导入方式:支持追加写入,和先清空后写入两种方式导入数据至已有表中。
-
信息全部确认后点击“下一步”
-
对上传文件的进行相应的解析配置。
-
文件类型:系统会基于上传文件的格式后缀自动解析出文件类型,用户也可以自行选择其他文件类型,但是需要确保选择后的文件类型与上传的文件类型是一致的。
-
文件属性配置:
-
表头:
- 第一行为表头:从文件第一行开始解析,同时将第一行直接解析为「字段名称」并与已有表进行匹配。若有匹配不上的会被判断失败。
- 无表头:忽略第一行,从第二行开始作为数值进行读取。
- 跳过前N行:自行设置跳过的行数,并从N+1行开始作为数值进行读取。
-
字段包裹字符:
- 双引号:在列分隔符设定下,将""双引号内的内容解析为字段值。推荐选项。
- 单引号:在列分隔符设定下,将'单引号以内的内容解析为字段值。
- 空:列分隔符后的所有信息均会被解析为字段。
-
换行符:设定换行符的处理方式,Windows系统为\r\n,linux、MAC系统为\n。
-
空值表示:指定文件中空值的表达方式。
-
列分割符:列之间的分割符,只运行使用单个字符。对于csv文件,默认为逗号
-
编码方式:UTF-8、GBK
-
遇错停止:
- 立即停止:遇错立刻停止读取,并返回错误提示。
- 忽略错误:忽略错误行数直到数据全部读取结束,返回错误行数信息。
- 设置容错行数:当错误行数超过设定时停止读取,并返回错误提示。
-