Question

我了解到robots.txt是供“机器人”使用的文件，或者我应该说“自动抓取工具”。但是，这是否会阻止人们键入“禁止”页面并手工收集数据？

也许用一个例子更清楚：我无法抓取此页面：

https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE

我仍然可以通过网络浏览器的开发人员工具“手动”获取包含数据的JSON文件吗？

Answer 1

robots.txt文件是准则，它们不会阻止任何人（无论是人还是机器）访问任何内容。

为Scrapy项目生成的默认settings.py文件将ROBOTSTXT_OBEY设置为True。您可以根据需要将其设置为False。

请注意，尽管如此，网站可能会采取反抓取措施来防止您抓取这些页面。但这是另一个主题。

Answer 2

基于original robots.txt specification from 1994，robots.txt中的规则仅针对机器人（粗体为我的机器人）：

WWW机器人（也称为流浪者或蜘蛛）是通过递归检索链接的页面来遍历万维网中许多页面的程序。

[…]

这些事件表明需要建立WWW服务器的机制，向机器人表明，不应访问服务器的哪些部分。

因此，机械手是自动检索在其他文档中链接/引用的文档的程序。

如果某人（使用浏览器或其他程序）检索了文档，或者某人向某个程序提供了手动收集的URL列表（并且该程序未在检索到的文档中添加/跟随引用）， robots.txt中的规则不适用。

常见问题解答“ What is a WWW robot?”确认了这一点：

普通的Web浏览器不是机器人，因为它们是由人操作的，并且不会自动检索引用的文档（嵌入式图像除外）。

robots.txt是否会阻止人类收集数据？

2 个答案: