我的网站上有一些限制部分可供抓取蜘蛛。
引用只包含我想要蜘蛛索引的网址的sitemap.xml文件是否足够?
或者我应该将以下元标记添加到我想限制访问的页面中?
<meta name="robots" content="NONE,NOARCHIVE" />
答案 0 :(得分:1)
页面不必列在要抓取的XML站点地图中。蜘蛛会爬行他们能找到的任何东西。如果要阻止页面被抓取,则需要使用robots.txt文件阻止它。
您不希望在搜索引擎的搜索结果中列出一个页面,您需要使用x-robots-tag
明确阻止他们这样做。仅阻止页面被抓取是Google may still list a page it can't crawl if it deems that page is important and should be in its search results。
您可以使用元标记:
<meta name="googlebot" content="noindex">
或HTTP标头:
X-Robots-Tag: noindex
答案 1 :(得分:0)
您应该“禁止”那些您不希望蜘蛛在robots.txt中抓取的网页。蜘蛛甚至不会加载那些页面,更不用说索引它们了。在此处阅读:http://www.robotstxt.org/
如果您希望蜘蛛阅读页面但不对其进行索引,则添加“noindex”标记,如下所示:
<meta name="robots" content="noindex">
抓取工具肯定会抓取并编制不在sitemap.xml中的网页