我一直在使用nutch来构建我自己的网络爬虫以通过给定的种子列表搜索图像,我收到错误,我重新安装了nutch以再次尝试爬行,但错误再次发生。可能是什么问题?
Nutch列表上的一些回复表明/ tmp文件夹中的空间不足,但我不确定。
这是我的日志:
Fetcher: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:836)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:496)
at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:532)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:505)
Error running:
/home/vasan/nutch/runtime/local/bin/nutch fetch -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true -D fetcher.timelimit.mins=180 /media/sf_vasans_repository/WrkSpcFinal/accurateshooter_com//segments/20151011160429 -noParsing -threads 50
Failed with exit value 255.
任何建议都将不胜感激。我不认为配置文件中存在任何问题,因为它们工作正常。