我有一堆CSV的zip文件,我想从中创建Hive表。我想弄清楚最好的方法是什么。
答案 0 :(得分:3)
通常的做法是将CSV文件转换为制表符分隔符或Ctrl A或Ctrl B分隔符,然后将其上传到Hadoop / Hive。
要将文件上传到HDFS,您可以使用以下命令 -
hadoop fs -put file_to_uplload hdfs_path
我假设你想自动化这个。在这种情况下,以下说明将有所帮助。
使用映射到CSV文件fileds的列创建配置单元表(您可以在此步骤中删除不必要的字段)。在hive create table语句中选择分隔符。
将csv文件转换为分隔格式(Ctrl A或Ctrl B)
您可以使用python批处理脚本/框架自动执行步骤。