我有2个datanode服务器的nutch / hadoop。我尝试抓取一些网址,但是nutch因这个错误而失败:
Fetcher: segment: crawl/segments
Fetcher: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://devcluster01:9000/user/nutch/crawl/segments/crawl_generate
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
at org.apache.nutch.fetcher.Fetcher$InputFormat.getSplits(Fetcher.java:105)
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1107)
at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1145)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1116)
有人能帮助我吗?我不知道怎么解决这个问题! 许多Thx!
答案 0 :(得分:1)
nutch的生成阶段在segments目录中创建“crawl_generate”。它包含获取阶段中使用的获取列表。您得到的错误是因为获取阶段无法获取获取列表。确保生成的输出填充在fetch尝试查找它的位置。
答案 1 :(得分:1)
验证nutch / crawl / segments / crawl_generate路径是否正确。
路径错误或解析阶段未完成。