我使用Apache Nutch 2.3.1和Elasticsearch 1.7分别进行爬网和索引。在完成所有必要的过程后,解析页面的最终内容包括页眉和页脚,这有时会导致稍微不相关的搜索。
我想配置Nutch从内容中排除页面的页眉和页脚。 Nutch的JIRA中存在一些open问题,但似乎都是指Nutch 1.x分支。此外,我已启用boilerpipe插件,但我没有发现内容质量有任何变化。
是否有任何插件或其他方式来执行更精确的解析?
答案 0 :(得分:0)
你也可以使用NUTCH-1870使用XPath来提取文档的特定部分,但它也是为Nutch 1.x开发的。说实话,虽然Nutch 2.x分支正在积极开发(并且随着时间的推移而进行了大量改进),但1.x版本仍然功能更丰富,而且很多新的贡献都集中在1.x分支上。
我猜这个插件并不难以移植到Nutch 2.x,我们欢迎每一个贡献。