我遇到了一个在robots.txt文件中使用以下内容的网站:
User-agent: *
Disallow: /*.php$
那它是做什么用的? 它会阻止网页抓取工具抓取以下网址吗?
https://example.com/index.php
https://example.com/index.php?page=Events&action=Upcoming
它会阻止子域吗?
https://subdomain.example.com/index.php
答案 0 :(得分:4)
那它是做什么用的?
按规格表示"以/*.php$
"开头的网址,这不是非常有用。可能有引擎支持一些自定义语法。我知道一些支持通配符,但这看起来像正则表达式语法,我没有听说过任何支持robots.txt的内容。
是否会阻止网页抓取工具抓取以下网址?
按规格:否。
如果有任何东西支持正则表达式,那么它将阻止第一个而不是第二个。
它会阻止子域吗?
没有。在robots.txt中,每个来源都是独立的。子域站点需要自己的资源副本。
答案 1 :(得分:2)
它看起来像正则表达式,但在规范中是正则表达式are not。 But Google and Bing both honours通配符(*)和end-of-url标记($)。你可以try your robots.txt rules here。