我正在开发一个需要来自其他网站的某些统计信息的项目,并且我已经创建了一个HTML scraper,可以每15分钟自动获取一次这些数据。但是,我现在停止了机器人,就像他们的使用条款一样,他们提到他们不允许它。
我真的很想尊重这一点,特别是如果有法律禁止我使用这些数据,但我已经多次通过电子邮件与他们联系而没有一个答案,所以现在我得出结论我如果数据合法,我们只需抓取数据。
在某些论坛上,我读过它是合法的,但我更愿意在StackOverflow上获得更“精确”的答案。
让我们说这实际上并不违法,他们是否有任何软件可以发现我的机器人每隔15分钟建立几个连接?
此外,在谈论他们的数据时,我们正在谈论每个“团队”的一个号码,而这个号码我将转移到我们自己的号码。
答案 0 :(得分:3)
该网站的根文件夹中必须有robots.txt
个文件。
有指定的路径,forbidden
用于抓取,以及那些allowed
(指定了可接受的超时)。
如果该文件不存在 - 任何内容都被允许,并且您不承担网站所有者无法提供该信息的责任。
另外,here您可以找到有关robots exclusion standard
的一些解释。