应用错误收集

在跨域查询中绕过robots.txt

时间：2012-03-04 22:47:28

标签： jquery robots.txt

我正在使用AnyOrigin进行跨域查询，并且我发现网站nytimes.com已安装了robots.txt。

见this Jsfiddle。尝试将http://www.nytimes.com/2012/03/05/world/middleeast/in-aipac-speech-obama-warns-against-loose-talk-of-war.html放在框中，它将返回Log In - The New York Times，这不是页面的标题。

任何关于此的想法都会很棒。

2 个答案:

答案 0 :(得分：1)

这可能与robots.txt文件没什么关系，因为它并没有真正阻止任何东西而且更可选，要么是因为你没有发送正确的标题而阻止你，他们看到它是不是尝试访问该网站的浏览器，或者他们确实需要登录才能查看该文章。

进行了一些检查，问题是必须启用Cookie，并且由于您没有使用浏览器，因此会重定向到纽约时报的登录页面。

试试这个FIDDLE，看看你得到的结果。

答案 1 :(得分：0)

如果您查看AnyOrigin获得的result，您会注意到它确实正在获得＃34;请登录＆＃34;如果您直接进入NYTimes页面，您将获得真实页面。这与robots.txt无关，因为robots.txt更像是你所说的＆＃34;指南＆＃34;比实际规则。我要下注由AnyOrigin发送的User-Agent或不允许AnyOrigin本身的NYTimes。