Quick Start with Copy Command
通过本实验,体验如何快速使用云器 Lakehouse 的 COPY 命令将本地 CSV 文件加载到表中,并进行最基本的数据探查和分析。
本实验代码运行在 Zeppelin Notebook,附录部分提供了相关指导。此外,本实验代码也可以运行在本地的各种 数据库管理工具 里(能够支持 COPY 命令访问本地文件)。
创建本实验所用的新的schema
CREATE SCHEMA IF NOT EXISTS lakehouse_demo_basic_features_schema;
USE SCHEMA lakehouse_demo_basic_features_schema;
创建表
--创建表
CREATE TABLE if not exists central_park_weather_observations (
station_id STRING,
station_name STRING,
date DATE,
precipitation DECIMAL,
snow_depth DECIMAL,
snowfall DECIMAL,
max_temperature DECIMAL,
min_temperature DECIMAL,
average_wind_speed DECIMAL
);
加载数据-copy from file
--加载数据
set copy.csv.with.header=false;
set copy.csv.skip.header=true;
copy central_park_weather_observations from '/opt/data/central_park_weather.csv' ;
请下载 central_park_weather.csv,点击“Download raw file”下载到本地,并修改上述代码中的目录 (/opt/data/) 为你所下载的目录。
然后验证数据是否已经加载成功:
select count(1) from central_park_weather_observations;
探查数据
SELECT * FROM central_park_weather_observations LIMIT 10;
分析数据
SELECT date, sum(precipitation) FROM central_park_weather_observations
GROUP BY date
ORDER BY date;
清理
DROP TABLE IF EXISTS central_park_weather_observations;
DROP SCHEMA IF EXISTS lakehouse_demo_basic_features_schema;
恭喜,任务完成!
请享受并继续学习!
附录
下载Zeppelin Notebook源文件
本文代码也提供运行在 Zeppelin 的版本。如果你想直接运行本文代码,请按照文档说明安装 Zeppelin。
Quick Start with Copy command.ipynb