标签: python-3.x hadoop mapreduce
我们使用48个Hadoop节点运行用Python编写的文本比较算法。有时(运行1/5)恰好有1个映射器无法完成工作,并且超过了时间限制错误。
大约需要进行20-25百万次迭代。
我们尝试将限制增加到1小时以上,从而成功地处理了先前的失败,但是出现更多具有相同消息的失败者。
我尝试在Python上的一个线程中调试运行相同数据的该程序,发现每次迭代花费的最大时间为15秒,而平均时间为0.008秒。因此,我得出结论,Python代码不会造成大量的时间消耗。
我们应该寻找什么来调试此问题?