PIG无法读取导致作业失败的本地CSV

时间:2016-09-22 15:54:24

标签: hadoop apache-pig

猪/ hadoop生态系统相对较新,在尝试执行简单的DUMP时遇到了令人沮丧的问题。我试着打电话给下面的猪脚本(文件是本地文件,而不是HFDS,所以我用.addClass打开猪壳。)

pig -x local

但是,执行此操作时,我收到以下错误消息(下面的作业摘要失败,底部有完整的PIG堆栈跟踪):

REGISTER utils.py USING jython AS utils;
events = LOAD '../test/events.csv' USING PigStorage(',') AS (patientid:int, eventid:chararray, eventdesc:chararray, timestamp:chararray, value:float);
events = FOREACH events GENERATE patientid, eventid, ToDate(timestamp, 'yyyy-MM-dd') AS etimestamp, value;
DUMP events;

Pig Stack Trace:

Input(s): Failed to read data from "file:///bootcamp/test/events.csv"
Output(s): Failed to produce result in "file/tmp/temp/305054006/tmp-908064458"

我在失败的工作中遇到过类似的问题,但遗憾的是我还没有成功找到解决方案。

编辑:我应该提一下,在以下链接中关注PIG教程时,我遇到了同样的问题。

http://www.sunlab.org/teaching/cse8803/fall2016/lab/hadoop-pig/

1 个答案:

答案 0 :(得分:0)

所以,我发现我能够" DUMP"该文件通过执行以下操作:

tmp = events 100000; --any int larger than number of rows
dump tmp;

我在这里看到了类似的问题,并且可以通过以root身份运行来解决。