Pig CSVExcelStorage无法正确加载多行数据

时间:2019-02-28 01:37:37

标签: hadoop bigdata apache-pig

从stackexchange-here中查询csv记录。该查询为我提供了约50000条记录。

尝试使用以下命令使用Piggybank将这些记录加载到猪上:CSVExcelStorage

REGISTER piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage;

tmpData = LOAD 'data/file.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE') AS (id:chararray, score:chararray, viewCount:chararray, tags:chararray, title:chararray, ownerId:chararray, body:chararray);


STORE tmpData INTO 'pig_output/output/' using PigStorage(',');

现在,以上目录将包含2个文件part-m-00000part-m-00001

part-m-00000包含约28000条记录,其中包含所有正确导入的数据,但是part-m-00001数据始于错误的数据(例如,,,,,

我得到的part-m-00000的确切最后一行是28892。转储了数据以检查如何加载

将要转储的日志数增加了1

toDisplay = LIMIT tmpData 28893; improperly loaded
dump toDisplay;

结果是,最后一行无效,,,,,

即使我加载数据using PigStorage(','),结果也一样。

检查数据以检查是否有任何可疑现象-无。这只是多行帖子内容(非常类似于此帖子)。

Libre calc可以正确打开数据。唯一的问题是将数据加载到Pig(想要清理数据-无法这样做,因为它甚至无法正确导入!!)

0 个答案:

没有答案