我将Nutch 2.3设置为HBase作为后端,我运行爬行,其中包括Solr和Solr Deduplication的索引。
我最近注意到Solr索引包含不需要的网页。
为了让Nutch忽略这些网页,我设置了以下元标记:
<meta name="robots" content="noindex,follow">
我访问过apache nutch官方网站,它解释了以下内容:
如果您无权编辑服务器上的/robots.txt文件,您仍然可以告诉机器人不要为您的网页编制索引或关注您的链接。其标准机制是机器人META标签
在网上搜索答案,我找到了一个建议来设置Protocol.CHECK_ROBOTS
或将protocol.plugin.check.robots
设置为nutch-site.xml中的属性。这些似乎都不起作用。
目前Nutch 2.3忽略noindex
规则,因此将内容索引到外部数据存储区,即Solr。
问题是我如何配置Nutch 2.3以纪念机器人元标记?
此外,如果Nutch 2.3以前配置为忽略机器人元标记,并且在上一个爬网周期中索引该网页。为机器人metatag提供规则是正确的,这是否会导致页面在将来的爬网中从Solr索引中删除?
答案 0 :(得分:1)
我已经创建了一个插件来克服Apache Nutch 2.3不符合机器人元标准noindex
的问题。元记录插件迫使Nutch在索引期间丢弃合格文件。这可以防止将符合条件的文档编入索引到外部数据存储区,即Solr。
请注意:此插件会阻止包含机器人元标记规则noindex
的文档索引,但它不会删除以前索引到外部数据存储区的任何文档。