Question

我正在构建一个webcrawler（一个很小的）。很少有像NYTIMES这样的网站在我们访问时检查cookie。它们似乎首先检查cookie，如果没有它可以设置它。如果出错，它会重定向到登录页面。

现在，如何使用编程处理此行为并防止重定向。

Answer 1

一般答案： Cookie用于多种不同的目的，因此没有一种适用于爬虫的万能解决方案。大多数网站使用cookie作为其用户识别方案的关键组成部分，如果您搞砸了这些网站，该网站可能无法确定您的爬虫是什么。这不是优选的。但是，如果您想了解有关发送Cookie数据的更多信息，请参阅此处：http://en.wikipedia.org/wiki/HTTP_cookie#Setting_a_cookie。 HTTP请求中的重要一行是：

Cookie: name=value; name2=value2

具体答案： 根据我所知道的纽约时报网站，他们需要订阅才能阅读他们的资料，因此他们的cookie可能是验证所必需的，不应该被爬虫欺骗。

如何在爬虫中处理cookie

1 个答案: