需要阻止机器人文件中的某些URL

时间:2013-07-15 17:00:15

标签: php robots.txt

我想在我网站的机器人文件中禁用某些网址并遇到一些困难。

现在我的漫游器文件包含以下内容:

User-agent: *

Allow: /
Disallow: /cgi-bin/

Sitemap: http://seriesgate.tv/sitemap.xml

我不希望Google为以下网址编制索引:

http://seriesgate.tv/watch-breakingbad-online/season5/episode8/searchresult/

还有8000多个这样的网址。因此机器人文件中的代码会阻止所有这些。

并且我还想禁止机器人文件中的搜索框,以便Google不会抓取搜索页面,例如此网址:

seriesgate.tv/search/indv_episodes/friends/

有什么想法吗?

2 个答案:

答案 0 :(得分:0)

添加Disallow: /name_of_folder/以禁止Google抓取到文件夹并添加Disallow: /file_name以禁止Google抓取特定文件..

答案 1 :(得分:0)

首先,您的robots.txt(包含在您的问题中)无效。 User-agent行之后一定不能有换行符。

其次,您不需要Allow行,因为一切都是允许的,无论如何都没有明确阻止。


如果要阻止的所有8000个网址都以“watch-”开头,则可以使用:

Disallow: /watch-

要阻止搜索结果,您可以使用:

Disallow: /search/

请注意,您必须检查这些Disallow值是否与其他您不想阻止的网页匹配。

所以你的robots.txt看起来像是:

User-agent: *
Disallow: /cgi-bin/
Disallow: /watch-
Disallow: /search/

Sitemap: http://seriesgate.tv/sitemap.xml

它会阻止以下网址:

  • http://seriesgate.tv/watch-
  • http://seriesgate.tv/watch-me
  • http://seriesgate.tv/watch-me.html
  • http://seriesgate.tv/watch-/
  • http://seriesgate.tv/search/
  • http://seriesgate.tv/search/some-result
  • http://seriesgate.tv/search/in-titles/foobar.html
  • ...