如何防止Nutch / Solr索引菜单或其他HTML内容?

时间:2018-06-09 00:14:47

标签: html indexing solr nutch

我一直在与Solr和Nutch一起抓取并索引来自我的Intranet网站(html,pdf,doc等)的所有内容。最后让一切工作(如果有人遇到爬虫问题,请查看我的其他问题或向我寻求帮助),现在遇到的问题是所有HTML内容都被编入索引,包括导航菜单。我想排除这样的内容,页脚等,以保持搜索结果的清洁和相关性。

有人知道如何排除html网页的某些部分被编入索引吗?我的研究引导我阅读下面的文章,其中包括应用补丁https://issues.apache.org/jira/browse/NUTCH-585

如何将此补丁应用于我的Nutch?环境:Windows Server 2012 r2,java版本“1.8.0_171”,solr-7.3.0。,nutch 1.8。 有人知道另一种选择吗?谢谢,所有的帮助表示赞赏。

0 个答案:

没有答案