我已经建立了几年的网站,主要是在php中。有些网站有cronjobs,通常每天运行一次。 cronjobs运行的php文件存储在服务器上,以及提供网站页面的文件。
我知道各种抓取工具,无论合法与否,都会访问我网站的各个页面。现在,如果爬虫会访问我的一个cronjob文件,这将激活cronjob,有时会产生不良结果。
我很确定这从未发生过,虽然我很感激,但我正在努力理解为什么。当然,我的任何一个cronjob网址都没有任何链接,但我很确定各种抓取工具已访问过其他网页,即使它们从未链接过。
其他开发人员如何解决此问题?在robots.txt文件中添加一行?设置cronjob-related php文件的权限?
提前致谢。
答案 0 :(得分:9)
不要将任何cron脚本存储在可公开访问的目录中。
答案 1 :(得分:0)
与@ Jeff的好回答一起:
搜索引擎抓取您网页的唯一方法是,如果有链接到它的内容。这可能是您网站上的另一个页面,其他人网站上的页面或您自己的站点地图。
无论你的cron工作永远不能从外面直接访问。