不完整的robots.txt,会发生什么?

时间:2016-10-02 22:10:07

标签: web-crawler robots.txt google-crawlers

我在网站上有一个页面,并且无权访问我的页面。该网站用于销售各种小型产品。 与他们在一起超过一年,并使用谷歌adwords帮助推广自己,我注意到没有任何产品的页面在谷歌索引。当我注意到该网站的robots.txt并不包含太多内容,并想知道这是否与它有任何关系。

产品网址遵循以下格式:

www.example.com/myshopname/[product ID]?q=I[product ID]

robots.txt就是:

Disallow: /*_escaped_fragment_

没有用户代理。我想知道这是否会对Google抓取我的网页产生任何影响,或者它是否会忽略robots.txt,因为没有指定用户代理。

2 个答案:

答案 0 :(得分:0)

我会在这里给你更多信息:

robots.txt文件是Web服务器上的一个简单文本文件,它告诉webcrawlers是否可以访问文件。 您始终可以访问此文件,因为它不是您的服务器系统文件的一部分,而是您网站的一部分。

在你的情况下,我不知道/*_escaped_fragment_的意思,但是:

User-agent: *
Disallow: /

将阻止对所有抓取工具的访问

虽然这个:

User-agent: *
Disallow:

允许完全访问您的网站。

User-agent: *
Disallow: /images/

将阻止访问指定的文件夹

User-agent: *
Disallow: /images
Allow: /images/my_photo.jpg

即使您禁止使用文件夹,也可以随时授予该文件夹中指定文件的访问权限。

User-agent: *
Disallow: /assets.html

将阻止访问指定文件

因此star表示所有抓取工具,如果您想将指令应用于您需要执行的指定抓取工具:

User-agent: Googlebot

如果您对googlebot特别感兴趣,并且想要查看您的robot.txt是否阻止您网站上的文件或文件夹,请访问https://developers.google.com/,以便查看是否阻止了网页资源。

还有必要说,虽然robot.txt可以成为您的SEO的有用工具,但所有常规抓取工具都会遵守所应用的指令。

恶意抓取工具不关心这些指令。

答案 1 :(得分:0)

此robots.txt无效(根据original specification),因为每条记录至少需要一个User-agent和至少一个Disallow行。

规范并未说消费者应该(尝试)解释无效记录。

所以,猜测:

  • 严格的消费者会忽略此无效记录。对于这些消费者,你的robots.txt将相当于一个不存在的robots.txt,相当于这个:

    User-agent: *
    Disallow: 
    

    (即,一切都被允许)

  • 有礼貌的消费者可能会认为作者打算为此记录设置User-agent: *。对于这些消费者,您的robots.txt将等同于此:

    User-agent: *
    Disallow: /*_escaped_fragment_
    

在任何情况下,您的robots.txt(很可能)都不会阻止消费者抓取路径以/myshopname/开头的网址(除非网址包含_escaped_fragment_,在这种情况下,某些消费者可能会停止抓取它,即那些将*作为通配符进行交互;这不是原始规范的一部分。)