在搜寻Google搜索时被禁止,使用过的随机精英ssl代理,随机用户代理

时间:2019-09-01 13:17:43

标签: python-2.7 selenium-webdriver web-scraping beautifulsoup google-search

抓取Google搜索,尝试了多种方法来避免进入黑名单,但仍被阻止。

我想抓取一些随机公开网站上列出的公司的google结果。尝试过旋转精英代理,用户代理,其他浏览器标头,随机间隔和无头浏览器(selenium-phantomjs)。

我以前用Node.js编写了代码,该代码虽然可以运行,但是有很多资源。因此,现在我用python编写了代码,它可以从localhost正常运行。将其部署到服务器(Plesk)上并运行代码后,谷歌开始阻止IP,现在它也无法使用nodejs代码。

我用于Google Scraping的算法:

'User-Agent': '',
        'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        'Accept-Encoding': 'gzip,deflate',
        'Accept-Language': "en"
  • 获取随机代理和用户代理,并将其设置为phantomjs配置(在for循环中,直到得到响应或最多15个代理为止),
  • 1到10秒之间的随机超时。

要检查我的代码是否有问题,我尝试通过ssh从服务器使用curl,我获得了验证码页面HTML。

0 个答案:

没有答案