robots.txt是否会阻止人类收集数据?

时间:2019-03-21 15:50:23

标签: browser scrapy robots.txt

我了解到robots.txt是供“机器人”使用的文件,或者我应该说“自动抓取工具”。但是,这是否会阻止人们键入“禁止”页面并手工收集数据?

也许用一个例子更清楚:我无法抓取此页面:

https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE

我仍然可以通过网络浏览器的开发人员工具“手动”获取包含数据的JSON文件吗?

2 个答案:

答案 0 :(得分:1)

robots.txt文件是准则,它们不会阻止任何人(无论是人还是机器)访问任何内容。

为Scrapy项目生成的默认settings.py文件将ROBOTSTXT_OBEY设置为True。您可以根据需要将其设置为False

请注意,尽管如此,网站可能会采取反抓取措施来防止您抓取这些页面。但这是另一个主题。

答案 1 :(得分:1)

基于original robots.txt specification from 1994,robots.txt中的规则仅针对机器人(粗体为我的机器人):

  

WWW机器人(也称为流浪者或蜘蛛)是通过递归检索链接的页面来遍历万维网中许多页面的程序。

     

[…]

     

这些事件表明需要建立WWW服务器的机制,向机器人表明,不应访问服务器的哪些部分。

因此,机械手是自动检索在其他文档中链接/引用的文档的程序。

如果某人(使用浏览器或其他程序)检索了文档,或者某人向某个程序提供了手动收集的URL列表(并且该程序未在检索到的文档中添加/跟随引用), robots.txt中的规则不适用。

常见问题解答“ What is a WWW robot?”确认了这一点:

  

普通的Web浏览器不是机器人,因为它们是由人操作的,并且不会自动检索引用的文档(嵌入式图像除外)。