使用Nutch获取URL失败

时间:2015-10-11 23:24:24

标签: java nutch

我一直在使用nutch来构建我自己的网络爬虫以通过给定的种子列表搜索图像,我收到错误,我重新安装了nutch以再次尝试爬行,但错误再次发生。可能是什么问题?

Nutch列表上的一些回复表明/ tmp文件夹中的空间不足,但我不确定。

这是我的日志:

Fetcher: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:836)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:496)
at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:532)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:505)
Error running:
/home/vasan/nutch/runtime/local/bin/nutch fetch -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true -D fetcher.timelimit.mins=180 /media/sf_vasans_repository/WrkSpcFinal/accurateshooter_com//segments/20151011160429 -noParsing -threads 50
Failed with exit value 255.

任何建议都将不胜感激。我不认为配置文件中存在任何问题,因为它们工作正常。

0 个答案:

没有答案