替代语言/库,以提高网络刮刀的速度

时间:2011-02-16 19:22:11

标签: php curl web-crawler web-scraping

我使用PHP / cURL编写了一个刮刀,它在cURL上运行良好但存在瓶颈。 AFAIK没有办法提高cURL的速度,但我读过其他速度更快的语言/库。任何人都有这方面的经验,我可以期待什么改善?对于低于25%的任何事情,可能都不值得。

另一种选择可能是并行的cron工作吗?

1 个答案:

答案 0 :(得分:1)

php上的curl非常快。您应该查看使用curl_multi并行运行请求。

如果您通过fiddler运行刮刀,您将看到99%的时间正在等待远程请求。

您需要尝试查看有多少并行请求可以提供最佳性能。它会因站点而异。如果编写得很糟糕(db慢速服务器上没有索引等),有时会有多个执行线程的站点速度较慢。

我写了web scraping framework,为你做了很多这方面的工作。看看,窃取代码;学习一些新技术。