我正在使用带有hadoop流的python。尽管进行了仔细的单元测试,但错误不可避免地会蔓延。当它们发生时,这个错误信息就是hadoop给出的:
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:576)
...
该消息对于调试非常无益。
有没有办法在hadoop流中从python脚本中获取信息性错误?
答案 0 :(得分:2)
如果您有权访问正在运行的集群的jobtracker,则可以通过查找作业并查找失败的任务来访问脚本的stderr / stdout。