我在使用Scrapy-Splash和HTTP代理时遇到一些问题(请参阅"500 Internal Server Error" when combining Scrapy over Splash with an HTTP proxy),即使我尝试在http://splash.readthedocs.io/en/latest/api.html#proxy-profiles之后设置代理配置文件也是如此。
为了更好地了解正在发生的事情,我一直在寻找Scrapy-Splash源代码https://github.com/scrapy-plugins/scrapy-splash的一部分,它解析了在{1}}中指定的代理host
和port
.ini
中的/etc/splash/proxy-profiles
文件。
但是,在存储库中搜索“proxy”或“.ini”并未产生任何结果。有人可以向我解释如何在Scrapy-Splash中实现代理分析吗?
答案 0 :(得分:0)
首先,Scrapy-Splash代理设置在/etc/splash/proxy-profiles
中,但如果您在容器中运行splash,则可以通过-v
将主机代理配置文件映射到容器,例如:
sudo docker run -p 8050:8050 -v /etc/splash/proxy-profiles:/etc/splash/proxy-profiles scrapinghub/splash
其次,当通过splash访问url时,如果代理配置文件名称不是default.ini
,则需要代理参数,例如:
localhost:8050/render.html?url=http://target.com?wait=1&timeout=2&proxy=filename