Question

在用nutch（1.4）爬行一天之后......最后我得到了以下异常的坏消息：

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

我有20个新闻网站和nutch的输入参数是：深度3和topN -1 我在linux的根目录中有足够的空间和大约4GB的ram 我该如何解决这个问题？感谢。

Answer 1

我认为您可能遇到此问题：http://wiki.apache.org/nutch/NutchGotchas

答案提供了：

我们发现解决这种情况的答案是，您很可能在/ tmp中没有磁盘空间。考虑使用另一个位置，或者可能是另一个分区，用于hadoop.tmp.dir（可以在nutch-site.xml中设置），有足够的空间容纳大型瞬态文件或使用Hadoop集群。

使用nutch进行爬网时出现IOException

1 个答案: