作为分析师,经常遇到建临时表的需求,比如从另外一个系统(比如神策)导出用户数据到csv,然后导入hive表:
use temp;
create table if not exists temp.fast_entrance (dt int, user_id string) row format delimited fields terminated by ',';
hdfs dfs -put 极速处理入口点击但未处理的用户.csv /user/xuzhen.chen/
LOAD DATA INPATH '/user/xuzhen.chen/极速处理入口点击但未处理的用户.csv' OVERWRITE INTO TABLE fast_entrance;
这种需求非常常见,神策圈定具备某些行为特征的用户,然后看这部分用户的属性(hive表)。需要注意的是,考虑到磁盘空间和数据传输效率,这里不能是太大的csv文件