解释robots.txt与使用条款

时间:2016-12-21 19:27:28

标签: web-scraping web-crawler robots.txt data-science craigslist

我对抓取craigslist感兴趣,仅用于博客文章的数据分析(即,没有商业或经济利益,没有发布/电子邮件,没有个人数据收集,没有共享数据)。他们的robots.txt文件如下:

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf

我打算不访问这些目录,只查看帖子,然后从帖子中收集文本。在robots.txt文件中似乎不允许这样做。但是,Craigslist terms of use具有以下条目(相关位以粗体显示):

  

使用。您同意不使用或提供软件(通用Web浏览器和电子邮件客户端除外,或我们明确许可的软件)或与CL交互或互操作的服务,例如:用于下载,上传,发布,标记,通过电子邮件发送,搜索或移动使用。 禁止机器人,蜘蛛,脚本,抓取工具,抓取工具等,以及误导,未经请求,非法和/或垃圾邮件发布/电子邮件。您同意不收集用户的个人和/或联系信息(“PI”)。

那么我应该假设我的僵尸程序在整个站点被禁止,或者只是禁止在robots.txt中的Disallowed目录中?如果是前者,那么我对robots.txt文件的误解是什么?如果是后者,那么我可以假设他们不会禁止我的知识产权,因为我遵守robots.txt吗?

1 个答案:

答案 0 :(得分:0)

他们以rss格式提供数据。在右下角有一个rss链接,可以带你到?format = rss

例如:https://losangeles.craigslist.org/search/sss?format=rss

如果您重新分发帖子内容,收集电子邮件到垃圾邮件等,我的猜测是真的不允许这样做。这可能取决于您如何使用数据。如果您只是收集统计信息,那么它可以接受,但我真的不知道。对于律师来说可能是一个更好的问题。