使用Pig加载CSV

时间:2016-03-13 20:27:39

标签: csv apache-pig delimiter comma

我正在尝试使用Pig加载CSV文件,但CSV文件已在某些列中包含“逗号”,因此使用PigStorage(',')会给我错误的答案。

我已经尝试过这些:

REGISTER /......./piggybank.jar

LOAD '...PATH_TO_INPUT_FILE' USING CSVLoader(',') AS (...fieldnames)

LOAD '...PATH_TO_INPUT_FILE' USING CSVExcelStorage(',') AS (...fieldnames)

他们都没有给出理想的结果。在他们的价值观中不包含逗号的记录他们工作正常,但其余的则没有。

1 个答案:

答案 0 :(得分:0)

您是否已定义方法CSVLoader()或CSVExcelStorage()?

DEFINE CSVLoader org.apache.pig.piggybank.storage.CSVLoader();

OR

DEFINE CSVExcelStorage() org.apache.pig.piggybank.storage.CSVExcelStorage();

否则你可以像这样直接引用这个方法

LOAD 'test.txt' USING org.apache.pig.piggybank.storage.CSVLoader(',')
LOAD 'test.txt' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',')