我有一些Scrapy代码,我想开始使用proxymesh。 proxymesh documentation隐晦地说:
对于scrapy爬网框架,您必须设置http_proxy 环境变量[...]然后activate HttpProxyMiddleware。
我理解如何设置http_proxy
环境变量,但是如何激活HttpProxyMiddleware"从文档中并不完全明显。我想我需要在Scrapy项目中向settings.py
添加以下内容:
DOWNLOADER_MIDDLEWARES = {
'myproject.middleware.ProxyMeshMiddleware': 100,
}
但是我认为我还需要添加一些实际的中间件代码,大概是在middleware.py
文件中?
我找到this gist,所以我想我可以将其复制并粘贴到middleware.py
,但我不确定它是否准确。它似乎使用了proxymesh文档中推荐的不同环境变量。
答案 0 :(得分:2)
您所指的是从OS环境变量中读取ProxyMesh设置的要点,否则它是基本Scrapy HttpProxyMiddleware的略微修改的代码,应该运行良好。
您还可以查看我支持代理轮换的Proxymesh Middleware https://github.com/mizhgun/scrapy-proxymesh的非常简单的实现(如果您有多个端点的ProxyMesh计划)和可自定义的超时。