Question

我将Nutch 2.3设置为HBase作为后端，我运行爬行，其中包括Solr和Solr Deduplication的索引。

我最近注意到Solr索引包含不需要的网页。

为了让Nutch忽略这些网页，我设置了以下元标记：

<meta name="robots" content="noindex,follow">

我访问过apache nutch官方网站，它解释了以下内容：

如果您无权编辑服务器上的/robots.txt文件，您仍然可以告诉机器人不要为您的网页编制索引或关注您的链接。其标准机制是机器人META标签

在网上搜索答案，我找到了一个建议来设置Protocol.CHECK_ROBOTS或将protocol.plugin.check.robots设置为nutch-site.xml中的属性。这些似乎都不起作用。

目前Nutch 2.3忽略noindex规则，因此将内容索引到外部数据存储区，即Solr。

问题是我如何配置Nutch 2.3以纪念机器人元标记？

此外，如果Nutch 2.3以前配置为忽略机器人元标记，并且在上一个爬网周期中索引该网页。为机器人metatag提供规则是正确的，这是否会导致页面在将来的爬网中从Solr索引中删除？

Answer 1

我已经创建了一个插件来克服Apache Nutch 2.3不符合机器人元标准noindex的问题。元记录插件迫使Nutch在索引期间丢弃合格文件。这可以防止将符合条件的文档编入索引到外部数据存储区，即Solr。

请注意：此插件会阻止包含机器人元标记规则noindex的文档索引，但它不会删除以前索引到外部数据存储区的任何文档。