检查使用PHP删除哪些Blogspot站点

时间:2013-10-18 12:26:08

标签: php curl cron

我想检查一些Blogspot网站(超过5000个网站)是否在线或已被Google删除,使用PHP,cron&卷曲。我会每天使用cronjob来检查所有网站。 我知道curl会选择Blogspot站点的特定div(例如div id="header-outer")内容。但我犹豫不决,认为它会给服务器带来负担。

  • 使用cronjob每小时/每天使用curl检查超过5000个Blogspot站点。
  • 如果网站仍处于在线状态,则“激活”状态为“有效”;如果网站已被Google移除,则<“>”已删除“。

有没有办法使用curl和cronjob检查超过5000个Blogspot网站的状态?一个小小的想法可能对我有很大帮助。

1 个答案:

答案 0 :(得分:0)

这就是我想出的。您可以将所有URL放入文件中,也可以将其命名为url.txt:

(while read url; do if curl -s --retry 3 $url | grep 'header-outer' >/dev/null 2>&1; then echo "$url: active"; else echo "$url: removed"; fi; done) < url.txt

您可以将其放入cron条目或将其放入shell脚本并运行shell脚本。我不完全清楚的是PHP与它有什么关系,以及输出格式。如果您正在处理5000个网址并且只是“活动”或“已移除”,您如何知道哪些网站处于活动状态并被移除?我使用提供的URL为“active”和“removed”添加了前缀。