使用Apache Nutch进行复杂的页面解析

时间:2016-05-12 09:29:56

标签: nutch

我使用Apache Nutch 2.3.1和Elasticsearch 1.7分别进行爬网和索引。在完成所有必要的过程后,解析页面的最终内容包括页眉和页脚,这有时会导致稍微不相关的搜索。

我想配置Nutch从内容中排除页面的页眉和页脚。 Nutch的JIRA中存在一些open问题,但似乎都是指Nutch 1.x分支。此外,我已启用boilerpipe插件,但我没有发现内容质量有任何变化。

是否有任何插件或其他方式来执行更精确的解析?

1 个答案:

答案 0 :(得分:0)

你也可以使用NUTCH-1870使用XPath来提取文档的特定部分,但它也是为Nutch 1.x开发的。说实话,虽然Nutch 2.x分支正在积极开发(并且随着时间的推移而进行了大量改进),但1.x版本仍然功能更丰富,而且很多新的贡献都集中在1.x分支上。

我猜这个插件并不难以移植到Nutch 2.x,我们欢迎每一个贡献。