Question

我有一个网页，用户可以在其上填写一些数据，这样他们就需要登录。所以，当我使用xml-sitemaps.com创建sitemap.xml时，它创建了几个要求的位置先登录类似的东西：

<loc> https://www.example.com/login/?next=fill-form/ </loc>

此页面也没有内容，所以我认为阻止搜索引擎抓取它是一个好主意。

我想知道阻止搜索引擎爬行的正确方法是什么，

在head部分添加以下标记，

<meta name="robots" content="noindex, nofollow">

或通过在robots.txt文件中添加其网址来取消该网页？

另外，两者之间的区别是什么？

Answer 1

您可以尝试两者，但上述方法之间的唯一区别是<META>标记包含"NOFOLLOW"，它告诉机器人不要关注所述页面中给出的链接。

您必须注意，机器人可能会选择不尊重这两种方法，因为这两种方法都不是完全开发的标准。

有关详细信息，您可以访问：robotstxt.org，除了robots.txt检查程序之外，它还包含有关如何使用这两种方法的详细说明。

Answer 2

robots.txt不允许抓取 noindex不允许编制索引 You can’t disallow both.

如果您{robid.txt中有Disallow个网址，则符合规定的漫游器将不会访问此网址。如果他们以某种方式找到链接，搜索引擎可能会决定索引URL（无需访问它）。

如果你noindex这个网址，那么符合标准的搜索引擎就不会对网址编制索引，但机器人仍然可以访问它（否则他们将无法获知第一个应用了noindex位）。