Scor with TOR(Windows)

时间:2015-08-17 15:47:49

标签: python windows scrapy tor

我创建了一个带有几个蜘蛛的Scrapy项目来抓取一些网站。现在我想使用TOR:

  1. 从已爬网的服务器隐藏我的IP;
  2. 将我的请求关联到不同的ips,模拟来自不同用户的访问。
  3. 我已经阅读了一些有关此内容的信息,例如: using tor with scrapy frameworkHow to connect to https site with Scrapy via Polipo over TOR?

    这些链接的答案对我没有帮助。使用TOR使Scrapy正常工作应该采取哪些步骤?

    编辑1:

    考虑到答案1,我开始安装TOR。当我使用Windows时,我下载了TOR专家包(https://www.torproject.org/dist/torbrowser/5.0.1/tor-win32-0.2.6.10.zip)并阅读了有关如何将TOR配置为中继(https://www.torproject.org/docs/tor-doc-windows.html.en)的章节。不幸的是,关于如何在Windows上执行此操作的信息很少或没有任何信息。如果我解压缩下载的存档并运行文件Tor \ Tor.exe没有任何反应。但是,我可以在任务管理器中看到实例化了一个新进程。我不知道从这里开始的最佳方式是什么。

1 个答案:

答案 0 :(得分:3)

这里有详细的逐步说明 http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/

基本步骤有:

  1. 安装Tor和Polipo(对于linux,这可能需要添加存储库)。
  2. 使用SOCK连接配置Polipo与TOR通话(参见上面的链接)。
  3. 创建自定义中间件以将tor用作http代理并随机更改scrapy用户代理
  4. 从上面的示例中禁止折旧警告,写 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 而不是'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
  5. 你的szenario是什么?你有没有想过租用代理服务器?