标签: python multithreading mechanize python-multithreading
我正在用Python编写一个脚本,它将从我的Web服务器中抓取一些页面并将它们放在一个文件中。我正在使用mechanize.Browser()模块执行此特定任务。
mechanize.Browser()
但是,我发现创建一个mechanize.Browser()的单个实例的速度相当慢。有没有办法可以相对轻松地使用多线程/多处理(即一次发出几个GET请求)?
答案 0 :(得分:1)
使用gevent或eventlet获取并发网络IO。
答案 1 :(得分:1)
如果您想要工业强度Python网页抓取,请查看scrapy。它使用Twisted进行异步通信并且速度非常快。能够每秒爬50页并不是一个不切实际的期望。