Question

猪/ hadoop生态系统相对较新，在尝试执行简单的DUMP时遇到了令人沮丧的问题。我试着打电话给下面的猪脚本（文件是本地文件，而不是HFDS，所以我用.addClass打开猪壳。）

pig -x local

但是，执行此操作时，我收到以下错误消息（下面的作业摘要失败，底部有完整的PIG堆栈跟踪）：

REGISTER utils.py USING jython AS utils;
events = LOAD '../test/events.csv' USING PigStorage(',') AS (patientid:int, eventid:chararray, eventdesc:chararray, timestamp:chararray, value:float);
events = FOREACH events GENERATE patientid, eventid, ToDate(timestamp, 'yyyy-MM-dd') AS etimestamp, value;
DUMP events;

Pig Stack Trace：

Input(s): Failed to read data from "file:///bootcamp/test/events.csv"
Output(s): Failed to produce result in "file/tmp/temp/305054006/tmp-908064458"

我在失败的工作中遇到过类似的问题，但遗憾的是我还没有成功找到解决方案。

编辑：我应该提一下，在以下链接中关注PIG教程时，我遇到了同样的问题。

http://www.sunlab.org/teaching/cse8803/fall2016/lab/hadoop-pig/

Answer 1

所以，我发现我能够＆＃34; DUMP＆＃34;该文件通过执行以下操作：

tmp = events 100000; --any int larger than number of rows
dump tmp;

我在这里看到了类似的问题，并且可以通过以root身份运行来解决。

PIG无法读取导致作业失败的本地CSV

1 个答案: