Question

抓取Google搜索，尝试了多种方法来避免进入黑名单，但仍被阻止。

我想抓取一些随机公开网站上列出的公司的google结果。尝试过旋转精英代理，用户代理，其他浏览器标头，随机间隔和无头浏览器（selenium-phantomjs）。

我以前用Node.js编写了代码，该代码虽然可以运行，但是有很多资源。因此，现在我用python编写了代码，它可以从localhost正常运行。将其部署到服务器（Plesk）上并运行代码后，谷歌开始阻止IP，现在它也无法使用nodejs代码。

我用于Google Scraping的算法：

从proxyscrape中获取精英代理
从https://techblog.willshouse.com/2012/01/03/most-common-user-agents/删除用户代理
设置其他标题

'User-Agent': '',
        'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        'Accept-Encoding': 'gzip,deflate',
        'Accept-Language': "en"

获取随机代理和用户代理，并将其设置为phantomjs配置（在for循环中，直到得到响应或最多15个代理为止），
1到10秒之间的随机超时。

要检查我的代码是否有问题，我尝试通过ssh从服务器使用curl，我获得了验证码页面HTML。

在搜寻Google搜索时被禁止，使用过的随机精英ssl代理，随机用户代理

0 个答案: