是否允许网页抓取?

时间:2015-09-06 23:55:35

标签: web-scraping

我正在开发一个需要来自其他网站的某些统计信息的项目,并且我已经创建了一个HTML scraper,可以每15分钟自动获取一次这些数据。但是,我现在停止了机器人,就像他们的使用条款一样,他们提到他们不允许它。

我真的很想尊重这一点,特别是如果有法律禁止我使用这些数据,但我已经多次通过电子邮件与他们联系而没有一个答案,所以现在我得出结论我如果数据合法,我们只需抓取数据。

在某些论坛上,我读过它是合法的,但我更愿意在StackOverflow上获得更“精确”的答案。

让我们说这实际上并不违法,他们是否有任何软件可以发现我的机器人每隔15分钟建立几个连接?

此外,在谈论他们的数据时,我们正在谈论每个“团队”的一个号码,而这个号码我将转移到我们自己的号码。

1 个答案:

答案 0 :(得分:3)

该网站的根文件夹中必须有robots.txt个文件。

有指定的路径,forbidden用于抓取,以及那些allowed(指定了可接受的超时)。

如果该文件不存在 - 任何内容都被允许,并且您不承担网站所有者无法提供该信息的责任。

另外,here您可以找到有关robots exclusion standard的一些解释。