维基解密有一个不寻常的robots.txt。我可以爬什么?

时间:2017-03-07 23:06:40

标签: web-scraping web-crawler robots.txt

我正在仔细研究如何为Wikileaks编写Web爬虫。

当我到达https://wikileaks.org/robots.txt时,我所能看到的似乎是一堆无害的HTML,看起来可能会定义主页或其他内容。

我做错了吗?是否有人会将其放入robots.txt?

2 个答案:

答案 0 :(得分:3)

On 2016-01-03,维基解密的robots.txt是:

User-Agent: *
Disallow: /talk/

On 2016-01-05,它是一个纯文本的HTML文档。

以下日期in 2016in 2017的所有抓取似乎都会显示相同的无效内容(我只进行了抽查)。

因此,正式地说,现在允许抓取所有内容。但由于这显然是他们的错误,因此尊重他们最后一次工作的robots.txt是礼貌的:除了路径以/talk/开头的网址外,一切都被允许抓取。

答案 1 :(得分:1)

这是一个错误,可能是某些服务器配置错误。一个好的robots.txt尽可能简单,以确保即使是最便宜的爬虫也能得到它。