我创建了一个带有几个蜘蛛的Scrapy项目来抓取一些网站。现在我想使用TOR:
我已经阅读了一些有关此内容的信息,例如: using tor with scrapy framework,How to connect to https site with Scrapy via Polipo over TOR?
这些链接的答案对我没有帮助。使用TOR使Scrapy正常工作应该采取哪些步骤?
编辑1:
考虑到答案1,我开始安装TOR。当我使用Windows时,我下载了TOR专家包(https://www.torproject.org/dist/torbrowser/5.0.1/tor-win32-0.2.6.10.zip)并阅读了有关如何将TOR配置为中继(https://www.torproject.org/docs/tor-doc-windows.html.en)的章节。不幸的是,关于如何在Windows上执行此操作的信息很少或没有任何信息。如果我解压缩下载的存档并运行文件Tor \ Tor.exe没有任何反应。但是,我可以在任务管理器中看到实例化了一个新进程。我不知道从这里开始的最佳方式是什么。
答案 0 :(得分:3)
这里有详细的逐步说明 http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/
基本步骤有:
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
而不是'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
你的szenario是什么?你有没有想过租用代理服务器?