Quick Start with Copy command
通过本实验,体验快速通过云器Lakehouse的Copy命令将本地csv文件加载到表中并进行最基本的数据探查和分析。
本实验代码运行在Zeppelin Notebook,附录部分提供了相关指导。另外本实验代码也可以运行在本地的各种数据库管理工具里(能够支持Copy命令访问本地文件)。
创建本实验所用的新的schema
CREATE SCHEMA IF NOT EXISTS lakehouse_demo_basic_features_schema;
USE SCHEMA lakehouse_demo_basic_features_schema;
创建表
--创建表
CREATE TABLE if not exists central_park_weather_observations (
station_id STRING,
station_name STRING,
date DATE,
precipitation DECIMAL,
snow_depth DECIMAL,
snowfall DECIMAL,
max_temperature DECIMAL,
min_temperature DECIMAL,
average_wind_speed DECIMAL
);
加载数据-copy from file
--加载数据
set copy.csv.with.header=false;
set copy.csv.skip.header=true;
copy central_park_weather_observations from '/opt/data/central_park_weather.csv' ;
请下载central_park_weather.csv,点击“Download raw file”下载到本地并修改上述代码里的目录(/opt/data/)为你所下载的目录。
并验证数据是否已经加载成功:
select count(1) from central_park_weather_observations;
探查数据
SELECT * FROM central_park_weather_observations LIMIT 10;
分析数据
SELECT date, sum(precipitation) FROM central_park_weather_observations
GROUP BY date
ORDER BY date;
清理
DROP TABLE IF EXISTS central_park_weather_observations;
DROP SCHEMA IF EXISTS lakehouse_demo_basic_features_schema;
Congratulations, it's done.
Please enojoy and learn more!
附录
下载Zeppelin Notebook源文件
本文代码也提供运行在Zeppelin的版本,你如果想直接运行本文代码,请按照文档说明安装Zeppelin。
Quick Start with Copy command.ipynb