如何在集成IP代理时抓取使用cookie的网站?

时间:2016-02-06 11:23:00

标签: c# cookies proxy web-crawler scraper

我正在创建一个使用多个IP代理的抓取工具。每当我尝试在没有代理的情况下抓取网站时,我就可以获得html源代码,但是当我尝试启用ip代理时,它总是会失败并抛出异常(远程服务器返回错误:(403)禁止。 )

看着小提琴手,网站似乎在访问时存储了cookie。但是如果启用了代理,则在获取响应部分时会失败。

我不明白为什么没有使用代理设置cookie?它是导致它的cookie的代理服务器设置吗?或者我还可以在启用代理时做些什么呢?

顺便说一下,我正在使用C#,但问题似乎并不依赖于语言。

1 个答案:

答案 0 :(得分:0)

另一件需要考虑的事情是你从非代理机器的ip地址设置了一个cookie(有效),然后当你从另一个可能让你被阻止的ip地址发送了另一个带有相同cookie的请求时。

某些网络级软件会查看此类内容,这些内容可能会将您标记为恶意抓取工具或匿名浏览器。