我使用PHP / cURL编写了一个刮刀,它在cURL上运行良好但存在瓶颈。 AFAIK没有办法提高cURL的速度,但我读过其他速度更快的语言/库。任何人都有这方面的经验,我可以期待什么改善?对于低于25%的任何事情,可能都不值得。
另一种选择可能是并行的cron工作吗?
答案 0 :(得分:1)
php上的curl非常快。您应该查看使用curl_multi并行运行请求。
如果您通过fiddler运行刮刀,您将看到99%的时间正在等待远程请求。
您需要尝试查看有多少并行请求可以提供最佳性能。它会因站点而异。如果编写得很糟糕(db慢速服务器上没有索引等),有时会有多个执行线程的站点速度较慢。
我写了web scraping framework,为你做了很多这方面的工作。看看,窃取代码;学习一些新技术。