从抓取特定网页阻止搜索引擎

时间:2018-04-15 16:20:20

标签: web web-crawler sitemap robots.txt noindex

我有一个网页,用户可以在其上填写一些数据,这样他们就需要登录。所以,当我使用xml-sitemaps.com创建sitemap.xml时,它创建了几个要求的位置先登录类似的东西:

<loc> https://www.example.com/login/?next=fill-form/ </loc>

此页面也没有内容,所以我认为阻止搜索引擎抓取它是一个好主意。

我想知道阻止搜索引擎爬行的正确方法是什么,

head部分添加以下标记,

<meta name="robots" content="noindex, nofollow">

或通过在robots.txt文件中添加其网址来取消该网页?

另外,两者之间的区别是什么?

2 个答案:

答案 0 :(得分:0)

您可以尝试两者,但上述方法之间的唯一区别是<META>标记包含"NOFOLLOW",它告诉机器人不要关注所述页面中给出的链接。

您必须注意,机器人可能会选择不尊重这两种方法,因为这两种方法都不是完全开发的标准。

有关详细信息,您可以访问:robotstxt.org,除了robots.txt检查程序之外,它还包含有关如何使用这两种方法的详细说明。

答案 1 :(得分:0)

robots.txt不允许抓取 noindex不允许编制索引 You can’t disallow both.

如果您{robid.txt中有Disallow个网址,则符合规定的漫游器将不会访问此网址。如果他们以某种方式找到链接,搜索引擎可能会决定索引URL(无需访问它)。

如果你noindex这个网址,那么符合标准的搜索引擎就不会对网址编制索引,但机器人仍然可以访问它(否则他们将无法获知第一个应用了noindex位)。