如何编写Robots.txt链接wordpress以阻止他们访问“page.php?lougout”

时间:2015-02-25 05:11:10

标签: web-crawler robots.txt

嗨我有一个单词新闻网站我做了一些tweaks.somehow goggle bot显示很多页面抓取错误。下面提到的错误。

错误页面链接示例

网址错误

  page3/wp-login.php?action=logout
   page2/wp-login.php?action=logout
   page1z/wp-login.php?action=logout
   ... to n pages 

我使用了这个robot.txt代码

Disallow: /logout/

但它现在正在运作。

1 个答案:

答案 0 :(得分:0)

您可能希望在开头添加User-agent: *。这就是我的robots.txt的样子。谷歌没有为我的网站阅读它们

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-admin/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /feed/
Sitemap: http://example.com/sitemap.xml

但是查看您的错误日志,看起来可能不是Google或任何好的抓取工具。糟糕的抓取工具,不关心robots.txt。您可以做的是将一些页面添加到您的robots.txt中作为Disallow并从抓取工具(如蜜罐)记录信息(IP块,用户代理和标题),然后您可以像这样禁止它们

order allow,deny
deny from xx.xxx.xx.xx
deny from yy.yy.yyy.yy
deny from zzz.zz.z.zz
allow from all

或者很好地重定向到这样的不存在的网站,

#bad bots
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^BadBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^EvilBotr [OR]
RewriteCond %{HTTP_USER_AGENT} ^FakeBot
RewriteRule ^(.*)$ http://byecrawler.com/ #non-existent site