今天我偶然发现了我的网络主机上名为'error.log'的文件夹。我以为我会看看。
我看到多个'文件不存在'错误 - 有三种类型的条目:
我对这些文件的用途有一些猜测,但最终想知道:
答案 0 :(得分:2)
网络抓取工具/漫游器会读取robots.txt
文件,以允许/禁止它抓取服务器上的资源。但是,机器人读取此文件并不是强制性的,但好的文件可以。 http://en.wikipedia.org/wiki/Robots.txt还有一些示例文件可能看起来像并且将驻留在Web根目录中:
User-agent: * # All robots
Disallow: / # Do not enter website
或
User-Agent: googlebot # For this robot
Disallow: /something # do not enter
解释apple-touch-icon-precomposed.png
https://stackoverflow.com/a/12683605/722238
我相信某些人使用missing.html
作为自定义的404页面。机器人可能被配置为刮取此文件,因此请求它。
如果要控制机器人扫描服务器的资源,则应添加robots.txt文件。如前所述,机器人不必读取此文件。
如果您想添加其他两个文件以删除错误消息,但是,我认为没有必要。没有什么可说的,joe_random不会在您的服务器上为/somerandomfile.txt
发出请求,在这种情况下,您将收到另一个不存在的文件的错误消息。然后,您可以将它们重定向到自定义的404页面。