我对抓取craigslist感兴趣,仅用于博客文章的数据分析(即,没有商业或经济利益,没有发布/电子邮件,没有个人数据收集,没有共享数据)。他们的robots.txt文件如下:
User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf
我打算不访问这些目录,只查看帖子,然后从帖子中收集文本。在robots.txt文件中似乎不允许这样做。但是,Craigslist terms of use具有以下条目(相关位以粗体显示):
使用。您同意不使用或提供软件(通用Web浏览器和电子邮件客户端除外,或我们明确许可的软件)或与CL交互或互操作的服务,例如:用于下载,上传,发布,标记,通过电子邮件发送,搜索或移动使用。 禁止机器人,蜘蛛,脚本,抓取工具,抓取工具等,以及误导,未经请求,非法和/或垃圾邮件发布/电子邮件。您同意不收集用户的个人和/或联系信息(“PI”)。
那么我应该假设我的僵尸程序在整个站点被禁止,或者只是禁止在robots.txt中的Disallowed目录中?如果是前者,那么我对robots.txt文件的误解是什么?如果是后者,那么我可以假设他们不会禁止我的知识产权,因为我遵守robots.txt吗?
答案 0 :(得分:0)
他们以rss格式提供数据。在右下角有一个rss链接,可以带你到?format = rss
例如:https://losangeles.craigslist.org/search/sss?format=rss
如果您重新分发帖子内容,收集电子邮件到垃圾邮件等,我的猜测是真的不允许这样做。这可能取决于您如何使用数据。如果您只是收集统计信息,那么它可以接受,但我真的不知道。对于律师来说可能是一个更好的问题。