nutch - 使用Apache Nutch进行复杂的页面解析

时间：2016-05-12 09:29:56

标签： nutch

我使用Apache Nutch 2.3.1和Elasticsearch 1.7分别进行爬网和索引。在完成所有必要的过程后，解析页面的最终内容包括页眉和页脚，这有时会导致稍微不相关的搜索。

我想配置Nutch从内容中排除页面的页眉和页脚。 Nutch的JIRA中存在一些open问题，但似乎都是指Nutch 1.x分支。此外，我已启用boilerpipe插件，但我没有发现内容质量有任何变化。

是否有任何插件或其他方式来执行更精确的解析？

答案 0 :(得分：0)

你也可以使用NUTCH-1870使用XPath来提取文档的特定部分，但它也是为Nutch 1.x开发的。说实话，虽然Nutch 2.x分支正在积极开发（并且随着时间的推移而进行了大量改进），但1.x版本仍然功能更丰富，而且很多新的贡献都集中在1.x分支上。

我猜这个插件并不难以移植到Nutch 2.x，我们欢迎每一个贡献。