Question

我的网站上有一些限制部分可供抓取蜘蛛。

引用只包含我想要蜘蛛索引的网址的sitemap.xml文件是否足够？

或者我应该将以下元标记添加到我想限制访问的页面中？

<meta name="robots" content="NONE,NOARCHIVE" />

Answer 1

页面不必列在要抓取的XML站点地图中。蜘蛛会爬行他们能找到的任何东西。如果要阻止页面被抓取，则需要使用robots.txt文件阻止它。

您不希望在搜索引擎的搜索结果中列出一个页面，您需要使用x-robots-tag明确阻止他们这样做。仅阻止页面被抓取是Google may still list a page it can't crawl if it deems that page is important and should be in its search results。

您可以使用元标记：

<meta name="googlebot" content="noindex">

或HTTP标头：

X-Robots-Tag: noindex

Answer 2

您应该“禁止”那些您不希望蜘蛛在robots.txt中抓取的网页。蜘蛛甚至不会加载那些页面，更不用说索引它们了。在此处阅读：http://www.robotstxt.org/

如果您希望蜘蛛阅读页面但不对其进行索引，则添加“noindex”标记，如下所示：

<meta name="robots" content="noindex">

抓取工具肯定会抓取并编制不在sitemap.xml中的网页