更新旧的Nutch插件以能够在Nutch 2.3.1中使用Xpath解析

时间:2018-09-13 10:38:11

标签: java solr nutch

我正在使用apache Nutch 2.3.1开发一个项目,我需要能够从下载的html页面中提取特定数据。我找到了一个插件(parse-xml NUTCH-185),该插件可以帮助我实现该目的,但是该插件所使用的某些库已不存在或已被弃用,我打算做的是进行必要的更改以使其与Nutch 2.3兼容。 1个 这些在Nutch编译中给我带来错误的库是这些,您能帮我找到Nutch 2.3.1的等效库吗?

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.parse.ParseData;

1 个答案:

答案 0 :(得分:0)

Nutch 2.3.1不是Nutch 1.x的下一版本。 Nutch在任何给定时间都有2个主要的“分支”:Nutch 1.x / master / trunk和Nutch2.x。 Nutch 2.x与它的兄弟非常不同。他们共享许多设计思想,但是实现方式不同。简而言之,您找不到这些类,因为它们在Nutch 2.x中不存在。

  

org.apache.lucene.*不是在Nutch中实现的,而是直接在Apache Lucene库中使用。

与Nutch 1.x相比,Nutch 2.x具有非常不同的体系结构。这意味着该插件的更新不仅涉及替换那些导入。您需要使代码适应新的体系结构。尽管该插件的主要逻辑应该大致相同。