如何在爬虫中处理cookie

时间:2014-06-09 06:10:22

标签: java http http-headers jsoup web-crawler

我正在构建一个webcrawler(一个很小的)。很少有像NYTIMES这样的网站在我们访问时检查cookie。它们似乎首先检查cookie,如果没有它可以设置它。如果出错,它会重定向到登录页面。

现在,如何使用编程处理此行为并防止重定向。

1 个答案:

答案 0 :(得分:0)

一般答案: Cookie用于多种不同的目的,因此没有一种适用于爬虫的万能解决方案。大多数网站使用cookie作为其用户识别方案的关键组成部分,如果您搞砸了这些网站,该网站可能无法确定您的爬虫是什么。这不是优选的。但是,如果您想了解有关发送Cookie数据的更多信息,请参阅此处:http://en.wikipedia.org/wiki/HTTP_cookie#Setting_a_cookie。 HTTP请求中的重要一行是:

Cookie: name=value; name2=value2

具体答案: 根据我所知道的纽约时报网站,他们需要订阅才能阅读他们的资料,因此他们的cookie可能是验证所必需的,不应该被爬虫欺骗。