使用nutch进行爬网时出现IOException

时间:2012-02-15 19:56:42

标签: web-crawler nutch ioexception

在用nutch(1.4)爬行一天之后......最后我得到了以下异常的坏消息:

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

我有20个新闻网站和nutch的输入参数是:深度3和topN -1 我在linux的根目录中有足够的空间和大约4GB的ram 我该如何解决这个问题? 感谢。

1 个答案:

答案 0 :(得分:0)

我认为您可能遇到此问题:http://wiki.apache.org/nutch/NutchGotchas

答案提供了:

  

我们发现解决这种情况的答案是,您很可能在/ tmp中没有磁盘空间。考虑使用另一个位置,或者可能是另一个分区,用于hadoop.tmp.dir(可以在nutch-site.xml中设置),有足够的空间容纳大型瞬态文件或使用Hadoop集群。