从stackexchange-here中查询csv记录。该查询为我提供了约50000条记录。
尝试使用以下命令使用Piggybank将这些记录加载到猪上:CSVExcelStorage
。
REGISTER piggybank.jar;
DEFINE CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage;
tmpData = LOAD 'data/file.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE') AS (id:chararray, score:chararray, viewCount:chararray, tags:chararray, title:chararray, ownerId:chararray, body:chararray);
STORE tmpData INTO 'pig_output/output/' using PigStorage(',');
现在,以上目录将包含2个文件part-m-00000
和part-m-00001
part-m-00000
包含约28000条记录,其中包含所有正确导入的数据,但是part-m-00001
数据始于错误的数据(例如,,,,,
)
我得到的part-m-00000
的确切最后一行是28892。转储了数据以检查如何加载
将要转储的日志数增加了1
toDisplay = LIMIT tmpData 28893; improperly loaded
dump toDisplay;
结果是,最后一行无效,,,,,
。
即使我加载数据using PigStorage(',')
,结果也一样。
检查数据以检查是否有任何可疑现象-无。这只是多行帖子内容(非常类似于此帖子)。
Libre calc可以正确打开数据。唯一的问题是将数据加载到Pig(想要清理数据-无法这样做,因为它甚至无法正确导入!!)