我正在编写一个代理服务器,将youtube.com映射到另一个域(因此用户可以轻松访问来自德国等国家/地区的YouTube,而不会搜索结果和视频)。
不幸的是我的robots.txt
中存在错误。现在修好了,但是Baiduspider得到了我的旧robots.txt并且一直试图将整个网站编入索引几天。
因为Youtube是一个非常大的网站,我认为这个过程不会很快结束: - )
我已经尝试将baiduspider重定向到另一个页面并向其发送404,但它已经解析为多个路径。
我该怎么办?
答案 0 :(得分:2)
停止处理来自Baiduspider的请求
with lighttpd附加到lighttpd.conf
$HTTP["useragent"] =~ "Baiduspider" {url.access-deny = ( "" )}
Baiduspider迟早应该重新获取robots.txt (见http://blog.bauani.org/2008/10/baiduspider-spider-english-faq.html)