我正在使用AnyOrigin进行跨域查询,并且我发现网站nytimes.com已安装了robots.txt。
见this Jsfiddle。尝试将http://www.nytimes.com/2012/03/05/world/middleeast/in-aipac-speech-obama-warns-against-loose-talk-of-war.html
放在框中,它将返回Log In - The New York Times
,这不是页面的标题。
任何关于此的想法都会很棒。
答案 0 :(得分:1)
这可能与robots.txt文件没什么关系,因为它并没有真正阻止任何东西而且更可选,要么是因为你没有发送正确的标题而阻止你,他们看到它是不是尝试访问该网站的浏览器,或者他们确实需要登录才能查看该文章。
进行了一些检查,问题是必须启用Cookie,并且由于您没有使用浏览器,因此会重定向到纽约时报的登录页面。
试试这个FIDDLE,看看你得到的结果。
答案 1 :(得分:0)
如果您查看AnyOrigin获得的result,您会注意到它确实正在获得#34;请登录"如果您直接进入NYTimes页面,您将获得真实页面。这与robots.txt无关,因为robots.txt更像是你所说的"指南"比实际规则。我要下注由AnyOrigin发送的User-Agent或不允许AnyOrigin本身的NYTimes。