几周前,我们发现有人使用robots.txt目录访问我们的网站:
http://www.ourdomain.com/robots.txt
我一直在做一些研究,它说robots.txt是我们搜索引擎的权限吗?
我不确定......
我之所以这样问是因为他今天要再次进入该文件......
问题是我们的网站上没有此文件...那么为什么有人试图访问该文件?危险吗?我们应该担心吗?
我们已经跟踪了IP地址,它说位置在德克萨斯州,几周前,它在委内瑞拉......他是否使用VPN?这是机器人吗?
有人可以解释这个文件的作用以及他试图访问它的原因吗?
答案 0 :(得分:1)
在robots.txt(简单文本文件)中,您可以指定机器人不应抓取您网站的哪些网址(例如搜索引擎抓取工具)。
此文件的位置已修复,因此机器人始终知道在何处查找规则:名为robots.txt
的文件必须放在主机的文档根目录中。例如,当您的网站为http://example.com/blog
时,必须可以从http://example.com/robots.txt
访问robots.txt。
礼貌机器人会在尝试访问您的网页之前检查此文件;不礼貌的机器人会忽视它。
如果您没有提供robots.txt,礼貌机器人会认为他们可以抓取所有内容。要摆脱404s,请使用此robots.txt(说明相同:允许所有机器人抓取所有内容):
User-agent: *
Disallow: