有没有办法从hadoop流中的python脚本中获取信息错误?

时间:2012-09-03 16:51:55

标签: python debugging error-handling hadoop hadoop-streaming

我正在使用带有hadoop流的python。尽管进行了仔细的单元测试,但错误不可避免地会蔓延。当它们发生时,这个错误信息就是hadoop给出的:

java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:576)
...

该消息对于调试非常无益。

有没有办法在hadoop流中从python脚本中获取信息性错误?

1 个答案:

答案 0 :(得分:2)

如果您有权访问正在运行的集群的jobtracker,则可以通过查找作业并查找失败的任务来访问脚本的stderr / stdout。