Question

我在hadoop中有一个csv文件，我有一个Hive表，现在我想把csv文件加载到这个Hive表中

我使用了加载LOAD DATA本地＆＃39;路径/到/ csv / file＆＃39;覆盖INTO TABLE tablename;

最终出现了这个错误：

Error in .verify.JDBC.result(r, "Unable to retrieve JDBC result set for ",  : 
Unable to retrieve JDBC result set for LOAD DATA local
'path/to/csv/file' overwrite INTO TABLE tablename 
(Error while processing statement: FAILED: 
ParseException line 1:16 missing INPATH at ''path/tp csv/file'' near '<EOF>'
)

注意：我在r

中使用RJDBC连接尝试此操作

Answer 1

我认为将CSV加载到Hive表的命令是（当CSV在HDFS中时）。

LOAD DATA INPATH '/user/test/my.csv' INTO TABLE my_test;

Answer 2

由于您的文件已存在于HDFS中，请删除关键字Local

LOAD DATA inpath＆＃39; path / to / csv / file＆＃39;覆盖INTO TABLE tablename;

Answer 3

我开发了一个从csv文件生成配置单元脚本的工具。以下是有关如何生成文件的几个示例。工具 - https://sourceforge.net/projects/csvtohive/?source=directory

使用Browse选择一个CSV文件并设置hadoop根目录ex：/ user / bigdataproject /

工具生成包含所有csv文件的Hadoop脚本，以下是一个示例生成Hadoop脚本以将csv插入Hadoop

#!/bin/bash -v

hadoop fs -put ./AllstarFull.csv /user/bigdataproject/AllstarFull.csv
hive -f ./AllstarFull.hive


hadoop fs -put ./Appearances.csv /user/bigdataproject/Appearances.csv
hive -f ./Appearances.hive


hadoop fs -put ./AwardsManagers.csv /user/bigdataproject/AwardsManagers.csv
hive -f ./AwardsManagers.hive

生成的Hive脚本示例

CREATE DATABASE IF NOT EXISTS lahman;

USE lahman;

CREATE TABLE AllstarFull (playerID string,yearID string,gameNum string,gameID string,teamID string,lgID string,GP string,startingPos string) row format delimited fields terminated by ',' stored as textfile;

LOAD DATA INPATH '/user/bigdataproject/AllstarFull.csv' OVERWRITE INTO TABLE AllstarFull;

SELECT * FROM AllstarFull;

由于维杰

将csv数据加载到Hive表时出错

3 个答案: