Eclipse中的Nutch错误

时间:2012-03-31 14:31:05

标签: eclipse mongodb nutch

我正在尝试从 Eclipse 运行 Apache Nutch 。我按照http://wiki.apache.org/nutch/RunNutchInEclipse的说明进行操作。但是,“parse-html”(包括java和test)的来源都有错误。无论如何我运行它,它从 seed.txt 读取并提取URL并返回此错误:

Fetcher: finished at 2012-03-31 17:21:56, elapsed: 00:00:07
ParseSegment: starting at 2012-03-31 17:21:56
ParseSegment: segment: crawl/segments/20120331172142
Exception in thread "main" java.io.IOException: Job failed!

我想指出我的目标是从 Nutch 获取索引并将其存储在 MongoDB 中。

3 个答案:

答案 0 :(得分:1)

将以下内容添加到ivy.xml

<dependency org="rome" name="rome" rev="0.9" />
<dependency org="net.sourceforge.nekohtml" name="nekohtml" rev="1.9.13" />
<dependency org="org.ccil.cowan.tagsoup" name="tagsoup" rev="1.2.1" />

答案 1 :(得分:0)

我遇到了同样的问题。以下两种方法可能有所帮助:

  • 修改conf / log4j.properties文件以报告DEBUG消息;
  • 读取hadoop.log文件,该文件通常位于$ NUTCH_HOME或$ NUTCH_HOME / logs中。

通过检查这些消息,您应该能够发现问题。

这是关于在Eclipse中运行Nutch的教程,其中还讨论了几种错误处理。

答案 2 :(得分:0)

我找到了3个罐子并将它们作为外部罐子添加到项目中并且它起作用了。那些罐子是: cyberneko.jar rome-0.9.jar tagsoup-1.2.jar ,您可以通过简单的谷歌搜索找到所有这些。