抓取Google搜索,尝试了多种方法来避免进入黑名单,但仍被阻止。
我想抓取一些随机公开网站上列出的公司的google结果。尝试过旋转精英代理,用户代理,其他浏览器标头,随机间隔和无头浏览器(selenium-phantomjs)。
我以前用Node.js编写了代码,该代码虽然可以运行,但是有很多资源。因此,现在我用python编写了代码,它可以从localhost正常运行。将其部署到服务器(Plesk)上并运行代码后,谷歌开始阻止IP,现在它也无法使用nodejs代码。
我用于Google Scraping的算法:
从proxyscrape中获取精英代理
从https://techblog.willshouse.com/2012/01/03/most-common-user-agents/删除用户代理
设置其他标题
'User-Agent': '',
'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
'Accept-Encoding': 'gzip,deflate',
'Accept-Language': "en"
要检查我的代码是否有问题,我尝试通过ssh从服务器使用curl,我获得了验证码页面HTML。