Question

我正在仔细研究如何为Wikileaks编写Web爬虫。

当我到达https://wikileaks.org/robots.txt时，我所能看到的似乎是一堆无害的HTML，看起来可能会定义主页或其他内容。

我做错了吗？是否有人会将其放入robots.txt？

Answer 1

On 2016-01-03，维基解密的robots.txt是：

User-Agent: *
Disallow: /talk/

On 2016-01-05，它是一个纯文本的HTML文档。

以下日期in 2016和in 2017的所有抓取似乎都会显示相同的无效内容（我只进行了抽查）。

因此，正式地说，现在允许抓取所有内容。但由于这显然是他们的错误，因此尊重他们最后一次工作的robots.txt是礼貌的：除了路径以/talk/开头的网址外，一切都被允许抓取。

Answer 2

这是一个错误，可能是某些服务器配置错误。一个好的robots.txt尽可能简单，以确保即使是最便宜的爬虫也能得到它。