应用错误收集

我一直在与Solr和Nutch一起抓取并索引来自我的Intranet网站（html，pdf，doc等）的所有内容。最后让一切工作（如果有人遇到爬虫问题，请查看我的其他问题或向我寻求帮助），现在遇到的问题是所有HTML内容都被编入索引，包括导航菜单。我想排除这样的内容，页脚等，以保持搜索结果的清洁和相关性。

有人知道如何排除html网页的某些部分被编入索引吗？我的研究引导我阅读下面的文章，其中包括应用补丁https://issues.apache.org/jira/browse/NUTCH-585

如何将此补丁应用于我的Nutch？环境：Windows Server 2012 r2，java版本“1.8.0_171”，solr-7.3.0。，nutch 1.8。有人知道另一种选择吗？谢谢，所有的帮助表示赞赏。

如何防止Nutch / Solr索引菜单或其他HTML内容？

0 个答案: