nutch 1.11出错:.... org.apache.hadoop.fs.FileStatus.isDirectory()Z

时间:2016-04-14 14:05:14

标签: hadoop cygwin web-crawler nutch

我想在Google中创建像Google新闻一样的应用程序。 为此,我从头开始做这个并用Nutch进行基本设置。

我完成了安装,但在一个命令中出错。

以下是关于技术的简要介绍。我正在使用

-nutch 1.11
-Cygwin
  
      
  • 我的第一个命令是
  •   
$ bin/nutch

这给了我完美的输出。

  
      
  • 然后我像
  • 一样进行了URI抓取   
$ bin/nutch inject crawl/crawldb urls 

创建了crawldb文件夹并抓取了给定的网址

  
      
  • 现在我想生成片段,这给了我错误
  •   
$ bin/nutch generate crawl/crawldb crawl/segments

Generator: starting at 2016-04-14 17:30:29
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: Partitioning selected urls for politeness.
Generator: segment: crawl/segments/20160414173032
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.fs.FileStatus.isDirectory()Z
        at org.apache.nutch.util.LockUtil.removeLockFile(LockUtil.java:79)
        at org.apache.nutch.crawl.Generator.generate(Generator.java:637)
        at org.apache.nutch.crawl.Generator.run(Generator.java:743)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Generator.main(Generator.java:699)

我没有遇到问题。罐子之间是否存在不匹配或有任何其他问题......

1 个答案:

答案 0 :(得分:0)

您是自己构建了nutch还是使用了打包版本?我只是检查Nutch repo的1.11分支并构建它,执行你的命令给出正确的输出,完全没有例外。我已经在我的本地系统(OS X)上测试了这个,这不是windows / cygwin,但这不应该是一个问题。

1.11 nutch分支正在使用hadoop 2.4.0,你可以查看从runtime/local/lib/文件夹中的maven仓库中提取哪些版本的hadoop,查看hadoop-*个文件。