有没有其他方法可以获取代理列表和网站抓取信息?

时间:2019-06-23 17:01:51

标签: python scrapy

通过抓取,我将随机代理中间件用于Scrapy(https://github.com/aivarsk/scrapy-proxies)。

首先,我通过抓取免费代理站点(不使用代理旋转)获得list.txt(代理列表) 然后我抓取另一个站点(代理旋转) 当我由两个不同的Scrapy项目运行它时,效果很好。

问题是如何在一个scrapy项目中结合使用代理和scraping,或者有另一种方法来处理它?<​​/ p>

我试图在一个Scrapy项目中一起运行它,不幸的是,它不起作用。可能是因为在这种情况下,scrapy-proxies尝试使用list.txt进行代理轮换,但根据向free-proxy-site的请求,代理轮换当时为空。

1 个答案:

答案 0 :(得分:0)

有一个选项可以实现抓取代理和带有单个蜘蛛类中的代理的抓取网站。 gist code sample将此实现为scrapy as script app