我最近正致力于网络抓取。 我发现我们可以使用代理或随机用户代理来远离反刮检测。
代理和随机用户代理之间有什么区别吗?
因为当我明白两者都用于隐藏原始客户端请求标识时,我感到困惑。
如果理解错误,请告诉我
答案 0 :(得分:1)
Useragent和proxy是完全不同的概念
1)用户代理:用户代理将通过标头发送到目标网站
当我向stackoverflow发送请求时,我的用户代理为:
User-Agent: Mozilla / 5.0(X11; Ubuntu; Linux x86_64; rv:68.0)Gecko / 20100101 Firefox / 68.0
它表示我正在使用mozilla和linux +其他信息。在Linux上使用相同浏览器(firefox 5.0)的每个人都将具有相同的useragent。
该库将帮助您找到网络上最常用的用户代理,以便您的用户代理看起来是匿名的:https://github.com/Lobstrio/shadow-useragent
2)代理
代理可以让您将IP地址隐藏在代理后面。您定位的网站将收到代理的IP地址,而不是您的IP地址。如果您的ip被该网站阻止,则使用代理通常可以解锁该网站。
有很多原因导致您在抓取期间被阻止,但是在某些情况下旋转ip和用户代理可以有效