抓取重定向网址。

时间:2012-03-16 03:57:52

标签: node.js request scraper

我知道无论如何要刮掉重定向网址的网站。 例如:

request({ uri: 'http://www.toyota.com.my', encoding: 'binary' },

function (error, response, body) {
      // no response receive

}})

我猜是因为http://www.toyota.com.my/没有html文档。 所以它无法得到答复。真正的重定向网址为http://www.toyota.com.my/index.html

我可以知道如何检测没有html响应的网址吗?

2 个答案:

答案 0 :(得分:3)

最终网址位于response.request.uri.href,所有重定向都位于response.request.redirects中,顺便说一下,在这个例子中如下所示:

[ { statusCode : 302,
    redirectUri: 'http://www.toyota.com.my/index.html' } ]

答案 1 :(得分:0)

以下request:2.81.0

为我工作
console.log(response.request._redirect.redirects);    

[ { statusCode: 302, redirectUri: 'http://localhost:4000/' } ]