我想检查一些Blogspot网站(超过5000个网站)是否在线或已被Google删除,使用PHP,cron&卷曲。我会每天使用cronjob来检查所有网站。
我知道curl会选择Blogspot站点的特定div(例如div id="header-outer"
)内容。但我犹豫不决,认为它会给服务器带来负担。
有没有办法使用curl和cronjob检查超过5000个Blogspot网站的状态?一个小小的想法可能对我有很大帮助。
答案 0 :(得分:0)
这就是我想出的。您可以将所有URL放入文件中,也可以将其命名为url.txt:
(while read url; do if curl -s --retry 3 $url | grep 'header-outer' >/dev/null 2>&1; then echo "$url: active"; else echo "$url: removed"; fi; done) < url.txt
您可以将其放入cron条目或将其放入shell脚本并运行shell脚本。我不完全清楚的是PHP与它有什么关系,以及输出格式。如果您正在处理5000个网址并且只是“活动”或“已移除”,您如何知道哪些网站处于活动状态并被移除?我使用提供的URL为“active”和“removed”添加了前缀。