在用nutch(1.4)爬行一天之后......最后我得到了以下异常的坏消息:
.
.
.
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.
我有20个新闻网站和nutch的输入参数是:深度3和topN -1 我在linux的根目录中有足够的空间和大约4GB的ram 我该如何解决这个问题? 感谢。
答案 0 :(得分:0)
我认为您可能遇到此问题:http://wiki.apache.org/nutch/NutchGotchas
答案提供了:
我们发现解决这种情况的答案是,您很可能在/ tmp中没有磁盘空间。考虑使用另一个位置,或者可能是另一个分区,用于hadoop.tmp.dir(可以在nutch-site.xml中设置),有足够的空间容纳大型瞬态文件或使用Hadoop集群。