我一直在与Solr和Nutch一起抓取并索引来自我的Intranet网站(html,pdf,doc等)的所有内容。最后让一切工作(如果有人遇到爬虫问题,请查看我的其他问题或向我寻求帮助),现在遇到的问题是所有HTML内容都被编入索引,包括导航菜单。我想排除这样的内容,页脚等,以保持搜索结果的清洁和相关性。
有人知道如何排除html网页的某些部分被编入索引吗?我的研究引导我阅读下面的文章,其中包括应用补丁https://issues.apache.org/jira/browse/NUTCH-585
如何将此补丁应用于我的Nutch?环境:Windows Server 2012 r2,java版本“1.8.0_171”,solr-7.3.0。,nutch 1.8。 有人知道另一种选择吗?谢谢,所有的帮助表示赞赏。