在Hue上载/导入.csv - 指定正确的分隔符等

时间:2017-04-09 21:21:42

标签: csv hadoop delimiter hue

我正在尝试上传我在Kaggle.com/datasets上找到的有趣数据集,该数据集包含在名为“来自跨验证堆栈交换的问题”的文件夹中(特别是此处的文件“Questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions )到Cloudera的Hue,以便我可以使用Hive来查询数据。

但是,我在选择分隔符时无法正确上传.csv。我没有看到选择文本限定符,转义字符等的地方

我正在使用我从https://www.virtualbox.org/wiki/Downloads

下载的Oracle VirtualBox VM Linux盒子

我正在使用Hadoop的Cloudera发行版访问Hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html我特意使用Hue上的Metastore Manager尝试上传Questions.csv数据文件。

非常感谢上传/导入.csv这样的任何帮助。

1 个答案:

答案 0 :(得分:2)

您可以先创建一个包含此类参数的表:

CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

有关https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable

中Hive表创建的更多详细信息

然后,您必须在hdfs文件夹中上传csv文件并使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
 OVERWRITE INTO TABLE databaseXX.tableXX;

我觉得这是使用Hue将csv文件转换为表格的最简单方法。