您好我已经在Ubuntu上安装了solr和nutch。我能够在场合中抓取和索引,但不是所有时间。我一直在反复得到此路径错误,无法在线找到解决方案。通常,我会删除有错误的目录并重新运行,它会正常运行。但我不想再这样做了。是什么导致错误?感谢。
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027224701
LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840/parse_data
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255)
答案 0 :(得分:1)
你必须杀死一个Nutch进程。只需清除目录crawldb等,你就可以了。
Nutch首先在抓取路径中查找就绪链接数据库(linkdb),如果找不到它,则从您提供的种子文件中创建一个新的。如果您终止了爬网过程,则会导致从链接数据库读取失败。
答案 1 :(得分:0)
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
检查爬网文件夹是否存在并具有适当的权限,您需要使用-linkdb,如上所述,在新版本中使用它是可选的。大多数情况下,此错误是由于您为crawldb linkdb指定的路径和未正确给出的segements路径。
我遇到了与上面使用的语法相同的问题。只需检查您指定的文件夹是否正确。
使用此,
http://thetechietutorials.blogspot.com/2011/06/solr-and-nutch-integration.html
为我工作。