我正在尝试上传我在Kaggle.com/datasets上找到的有趣数据集,该数据集包含在名为“来自跨验证堆栈交换的问题”的文件夹中(特别是此处的文件“Questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions )到Cloudera的Hue,以便我可以使用Hive来查询数据。
但是,我在选择分隔符时无法正确上传.csv。我没有看到选择文本限定符,转义字符等的地方
我正在使用我从https://www.virtualbox.org/wiki/Downloads
下载的Oracle VirtualBox VM Linux盒子我正在使用Hadoop的Cloudera发行版访问Hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html我特意使用Hue上的Metastore Manager尝试上传Questions.csv数据文件。
非常感谢上传/导入.csv这样的任何帮助。
答案 0 :(得分:2)
您可以先创建一个包含此类参数的表:
CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
中Hive表创建的更多详细信息
然后,您必须在hdfs文件夹中上传csv文件并使用:
LOAD DATA INPATH '/tmp/myCsvFile'
OVERWRITE INTO TABLE databaseXX.tableXX;
我觉得这是使用Hue将csv文件转换为表格的最简单方法。