Quick Start with Copy command

通过本实验,体验快速通过云器Lakehouse的Copy命令将本地csv文件加载到表中并进行最基本的数据探查和分析。

本实验代码运行在Zeppelin Notebook,附录部分提供了相关指导。另外本实验代码也可以运行在本地的各种数据库管理工具里(能够支持Copy命令访问本地文件)。

创建本实验所用的新的schema

CREATE SCHEMA IF NOT EXISTS lakehouse_demo_basic_features_schema;
USE SCHEMA lakehouse_demo_basic_features_schema;

创建表

--创建表
CREATE TABLE if not exists central_park_weather_observations (
  station_id STRING,
  station_name STRING,
  date DATE,
  precipitation DECIMAL,
  snow_depth DECIMAL,
  snowfall DECIMAL,
  max_temperature DECIMAL,
  min_temperature DECIMAL,
  average_wind_speed DECIMAL
);

加载数据-copy from file

--加载数据
set copy.csv.with.header=false;
set copy.csv.skip.header=true;
copy central_park_weather_observations from '/opt/data/central_park_weather.csv' ;

请下载central_park_weather.csv,点击“Download raw file”下载到本地并修改上述代码里的目录(/opt/data/)为你所下载的目录。 并验证数据是否已经加载成功:

select count(1) from central_park_weather_observations;

探查数据

SELECT * FROM central_park_weather_observations LIMIT 10;

分析数据

SELECT date, sum(precipitation) FROM central_park_weather_observations
GROUP BY date
ORDER BY date;

清理

DROP TABLE IF EXISTS central_park_weather_observations;
DROP SCHEMA IF EXISTS lakehouse_demo_basic_features_schema;

Congratulations, it's done.

Please enojoy and learn more!

附录

下载Zeppelin Notebook源文件

本文代码也提供运行在Zeppelin的版本,你如果想直接运行本文代码,请按照文档说明安装Zeppelin

Quick Start with Copy command.ipynb

联系我们
预约咨询
微信咨询
电话咨询