Scrapy-Splash如何实现代理配置文件?

时间:2017-07-13 09:36:27

标签: python scrapy scrapy-splash

我在使用Scrapy-Splash和HTTP代理时遇到一些问题(请参阅"500 Internal Server Error" when combining Scrapy over Splash with an HTTP proxy),即使我尝试在http://splash.readthedocs.io/en/latest/api.html#proxy-profiles之后设置代理配置文件也是如此。

为了更好地了解正在发生的事情,我一直在寻找Scrapy-Splash源代码https://github.com/scrapy-plugins/scrapy-splash的一部分,它解析了在{1}}中指定的代理hostport .ini中的/etc/splash/proxy-profiles文件。

但是,在存储库中搜索“proxy”或“.ini”并未产生任何结果。有人可以向我解释如何在Scrapy-Splash中实现代理分析吗?

1 个答案:

答案 0 :(得分:0)

首先,Scrapy-Splash代理设置在/etc/splash/proxy-profiles中,但如果您在容器中运行splash,则可以通过-v将主机代理配置文件映射到容器,例如:

sudo docker run -p 8050:8050 -v /etc/splash/proxy-profiles:/etc/splash/proxy-profiles scrapinghub/splash

其次,当通过splash访问url时,如果代理配置文件名称不是default.ini,则需要代理参数,例如:

localhost:8050/render.html?url=http://target.com?wait=1&timeout=2&proxy=filename