应用错误收集

我们使用48个Hadoop节点运行用Python编写的文本比较算法。有时（运行1/5）恰好有1个映射器无法完成工作，并且超过了时间限制错误。

大约需要进行20-25百万次迭代。

我们尝试将限制增加到1小时以上，从而成功地处理了先前的失败，但是出现更多具有相同消息的失败者。

我尝试在Python上的一个线程中调试运行相同数据的该程序，发现每次迭代花费的最大时间为15秒，而平均时间为0.008秒。因此，我得出结论，Python代码不会造成大量的时间消耗。

我们应该寻找什么来调试此问题？