/ * .php $在robots.txt中的含义是什么?

时间:2015-06-04 10:26:09

标签: robots.txt

我遇到了一个在robots.txt文件中使用以下内容的网站:

User-agent: *
Disallow: /*.php$

那它是做什么用的? 它会阻止网页抓取工具抓取以下网址吗?

https://example.com/index.php
https://example.com/index.php?page=Events&action=Upcoming

它会阻止子域吗?

https://subdomain.example.com/index.php

2 个答案:

答案 0 :(得分:4)

  

那它是做什么用的?

按规格表示"以/*.php$"开头的网址,这不是非常有用。可能有引擎支持一些自定义语法。我知道一些支持通配符,但这看起来像正则表达式语法,我没有听说过任何支持robots.txt的内容。

  

是否会阻止网页抓取工具抓取以下网址?

按规格:否。

如果有任何东西支持正则表达式,那么它将阻止第一个而不是第二个。

  

它会阻止子域吗?

没有。在robots.txt中,每个来源都是独立的。子域站点需要自己的资源副本。

答案 1 :(得分:2)

它看起来像正则表达式,但在规范中是正则表达式are notBut Google and Bing both honours通配符(*)和end-of-url标记($)。你可以try your robots.txt rules here