我有一个网页,用户可以在其上填写一些数据,这样他们就需要登录。所以,当我使用xml-sitemaps.com创建sitemap.xml
时,它创建了几个要求的位置先登录类似的东西:
<loc> https://www.example.com/login/?next=fill-form/ </loc>
此页面也没有内容,所以我认为阻止搜索引擎抓取它是一个好主意。
我想知道阻止搜索引擎爬行的正确方法是什么,
在head
部分添加以下标记,
<meta name="robots" content="noindex, nofollow">
或通过在robots.txt
文件中添加其网址来取消该网页?
另外,两者之间的区别是什么?
答案 0 :(得分:0)
您可以尝试两者,但上述方法之间的唯一区别是<META>
标记包含"NOFOLLOW"
,它告诉机器人不要关注所述页面中给出的链接。
您必须注意,机器人可能会选择不尊重这两种方法,因为这两种方法都不是完全开发的标准。
有关详细信息,您可以访问:robotstxt.org,除了robots.txt检查程序之外,它还包含有关如何使用这两种方法的详细说明。
答案 1 :(得分:0)
robots.txt
不允许抓取
noindex
不允许编制索引
You can’t disallow both.
如果您{robid.txt中有Disallow
个网址,则符合规定的漫游器将不会访问此网址。如果他们以某种方式找到链接,搜索引擎可能会决定索引URL(无需访问它)。
如果你noindex
这个网址,那么符合标准的搜索引擎就不会对网址编制索引,但机器人仍然可以访问它(否则他们将无法获知第一个应用了noindex
位)。