Web Scraping的可扩展替代方案& Cron Jobs

时间:2015-06-22 22:10:54

标签: php curl cron web-scraping

所以我有一个小项目,我为几个朋友做了。没有什么太复杂,它本质上只是一个PHP脚本,它向网页发送cURL POST请求(具体来说,它是一个搜索页面,我的每个朋友都有不同的搜索参数),刮擦搜索结果并发送给我的四个朋友,如果结果包含使用preg_match的某个关键字,我会发送电子邮件通知 - 遗憾的是网站上没有此API。

目前我在我的小型512 MB LAMP DO VPS上每分钟执行一次这个脚本(带有一个cron作业)。这样做会占用大约50%的内存,这就提出了我的问题:是否有任何内存高效的方法来改进这个项目,这样可以扩展到支持数百个用户?我意识到我必须投资升级我的服务器,但是使用我当前的堆栈,这将非常昂贵。

基本上我想知道是否有更好的方法来向网页伪造搜索请求(并抓取结果),以及每分钟执行任务的cron作业的更好替代方案。 / p>

另外,我对切换语言持开放态度。我只使用PHP,因为我最熟悉它。

0 个答案:

没有答案