Question

几周前，我们发现有人使用robots.txt目录访问我们的网站： http://www.ourdomain.com/robots.txt
我一直在做一些研究，它说robots.txt是我们搜索引擎的权限吗？我不确定......
我之所以这样问是因为他今天要再次进入该文件...... 问题是我们的网站上没有此文件...那么为什么有人试图访问该文件？危险吗？我们应该担心吗？我们已经跟踪了IP地址，它说位置在德克萨斯州，几周前，它在委内瑞拉......他是否使用VPN？这是机器人吗？

有人可以解释这个文件的作用以及他试图访问它的原因吗？

Answer 1

在robots.txt（简单文本文件）中，您可以指定机器人不应抓取您网站的哪些网址（例如搜索引擎抓取工具）。

此文件的位置已修复，因此机器人始终知道在何处查找规则：名为robots.txt的文件必须放在主机的文档根目录中。例如，当您的网站为http://example.com/blog时，必须可以从http://example.com/robots.txt访问robots.txt。

礼貌机器人会在尝试访问您的网页之前检查此文件;不礼貌的机器人会忽视它。

如果您没有提供robots.txt，礼貌机器人会认为他们可以抓取所有内容。要摆脱404s，请使用此robots.txt（说明相同：允许所有机器人抓取所有内容）：

User-agent: *
Disallow:

有人在robots.txt上使用我们的网站

1 个答案: