我正在仔细研究如何为Wikileaks编写Web爬虫。
当我到达https://wikileaks.org/robots.txt时,我所能看到的似乎是一堆无害的HTML,看起来可能会定义主页或其他内容。
我做错了吗?是否有人会将其放入robots.txt?
答案 0 :(得分:3)
On 2016-01-03,维基解密的robots.txt是:
User-Agent: * Disallow: /talk/
On 2016-01-05,它是一个纯文本的HTML文档。
以下日期in 2016和in 2017的所有抓取似乎都会显示相同的无效内容(我只进行了抽查)。
因此,正式地说,现在允许抓取所有内容。但由于这显然是他们的错误,因此尊重他们最后一次工作的robots.txt是礼貌的:除了路径以/talk/
开头的网址外,一切都被允许抓取。
答案 1 :(得分:1)
这是一个错误,可能是某些服务器配置错误。一个好的robots.txt尽可能简单,以确保即使是最便宜的爬虫也能得到它。