猪/ hadoop生态系统相对较新,在尝试执行简单的DUMP时遇到了令人沮丧的问题。我试着打电话给下面的猪脚本(文件是本地文件,而不是HFDS,所以我用.addClass
打开猪壳。)
pig -x local
但是,执行此操作时,我收到以下错误消息(下面的作业摘要失败,底部有完整的PIG堆栈跟踪):
REGISTER utils.py USING jython AS utils;
events = LOAD '../test/events.csv' USING PigStorage(',') AS (patientid:int, eventid:chararray, eventdesc:chararray, timestamp:chararray, value:float);
events = FOREACH events GENERATE patientid, eventid, ToDate(timestamp, 'yyyy-MM-dd') AS etimestamp, value;
DUMP events;
Pig Stack Trace:
Input(s): Failed to read data from "file:///bootcamp/test/events.csv"
Output(s): Failed to produce result in "file/tmp/temp/305054006/tmp-908064458"
我在失败的工作中遇到过类似的问题,但遗憾的是我还没有成功找到解决方案。
编辑:我应该提一下,在以下链接中关注PIG教程时,我遇到了同样的问题。
http://www.sunlab.org/teaching/cse8803/fall2016/lab/hadoop-pig/
答案 0 :(得分:0)
所以,我发现我能够" DUMP"该文件通过执行以下操作:
tmp = events 100000; --any int larger than number of rows
dump tmp;
我在这里看到了类似的问题,并且可以通过以root身份运行来解决。