请求机器人重新解析robots.txt

时间:2011-12-08 11:44:14

标签: robots.txt web-crawler

我正在编写一个代理服务器,将youtube.com映射到另一个域(因此用户可以轻松访问来自德国等国家/地区的YouTube,而不会搜索结果和视频)。

不幸的是我的robots.txt中存在错误。现在修好了,但是Baiduspider得到了我的旧robots.txt并且一直试图将整个网站编入索引几天。 因为Youtube是一个非常大的网站,我认为这个过程不会很快结束: - )

我已经尝试将baiduspider重定向到另一个页面并向其发送404,但它已经解析为多个路径。

我该怎么办?

1 个答案:

答案 0 :(得分:2)

停止处理来自Baiduspider的请求

with lighttpd附加到lighttpd.conf

$HTTP["useragent"] =~ "Baiduspider" {url.access-deny = ( "" )}

Baiduspider迟早应该重新获取robots.txt (见http://blog.bauani.org/2008/10/baiduspider-spider-english-faq.html