Python抓取 - 请求更快

时间:2013-10-04 00:58:01

标签: python web-crawler scrapy

如果可能的话,我需要做一个网络抓取请求并尽快完成的回复。

我来自Java语言。我使用了两个“框架”,并没有完全满足我的意图。

Jsoup 快速请求/响应,但当页面有大量信息时,数据不完整。 Apache HttpClient 与此完全相反,可靠的数据却很慢。

我查看了一些Python模块,我正在测试 Scrapy 。在我的搜索中,我无法断定它是最快并且数据始终如一地,或者是否有其他更好,更冗长或更难。

第二,为此目的,Python是一种好的语言

提前谢谢。

2 个答案:

答案 0 :(得分:5)

Scrapy +1票。在过去的几个星期里,我一直在编写大型汽车论坛的爬虫,Scrapy绝对令人难以置信,快速,可靠。

答案 1 :(得分:0)

寻找“做请求并使响应快速完成”的内容毫无意义。

一个。任何HTTP库都会为您提供服务器响应的完整标题/正文。

B中。 Web请求如何“快速”发生通常取决于您的网络连接和服务器的响应时间,而不是您正在使用的客户端。

所以有了这些要求,任何事情都可以。

查看requests包。它是Python的优秀http客户端库。