在抓取中使用随机用户代理与代理?

时间:2016-08-11 12:07:35

标签: proxy web-scraping user-agent

我最近正致力于网络抓取。 我发现我们可以使用代理或随机用户代理来远离反刮检测。

代理和随机用户代理之间有什么区别吗?

因为当我明白两者都用于隐藏原始客户端请求标识时,我感到困惑。

如果理解错误,请告诉我

1 个答案:

答案 0 :(得分:1)

Useragent和proxy是完全不同的概念

1)用户代理:用户代理将通过标头发送到目标网站

当我向stackoverflow发送请求时,我的用户代理为:

User-Agent: Mozilla / 5.0(X11; Ubuntu; Linux x86_64; rv:68.0)Gecko / 20100101 Firefox / 68.0

它表示我正在使用mozilla和linux +其他信息。在Linux上使用相同浏览器(firefox 5.0)的每个人都将具有相同的useragent。

该库将帮助您找到网络上最常用的用户代理,以便您的用户代理看起来是匿名的:https://github.com/Lobstrio/shadow-useragent

2)代理

代理可以让您将IP地址隐藏在代理后面。您定位的网站将收到代理的IP地址,而不是您的IP地址。如果您的ip被该网站阻止,则使用代理通常可以解锁该网站。

有很多原因导致您在抓取期间被阻止,但是在某些情况下旋转ip和用户代理可以有效