Question

我对抓取craigslist感兴趣，仅用于博客文章的数据分析（即，没有商业或经济利益，没有发布/电子邮件，没有个人数据收集，没有共享数据）。他们的robots.txt文件如下：

User-agent: *
Disallow: /reply
Disallow: /fb/
Disallow: /suggest
Disallow: /flag
Disallow: /mf
Disallow: /eaf

我打算不访问这些目录，只查看帖子，然后从帖子中收集文本。在robots.txt文件中似乎不允许这样做。但是，Craigslist terms of use具有以下条目（相关位以粗体显示）：

使用。您同意不使用或提供软件（通用Web浏览器和电子邮件客户端除外，或我们明确许可的软件）或与CL交互或互操作的服务，例如：用于下载，上传，发布，标记，通过电子邮件发送，搜索或移动使用。 禁止机器人，蜘蛛，脚本，抓取工具，抓取工具等，以及误导，未经请求，非法和/或垃圾邮件发布/电子邮件。您同意不收集用户的个人和/或联系信息（“PI”）。

那么我应该假设我的僵尸程序在整个站点被禁止，或者只是禁止在robots.txt中的Disallowed目录中？如果是前者，那么我对robots.txt文件的误解是什么？如果是后者，那么我可以假设他们不会禁止我的知识产权，因为我遵守robots.txt吗？

Answer 1

他们以rss格式提供数据。在右下角有一个rss链接，可以带你到？format = rss

例如：https://losangeles.craigslist.org/search/sss?format=rss

如果您重新分发帖子内容，收集电子邮件到垃圾邮件等，我的猜测是真的不允许这样做。这可能取决于您如何使用数据。如果您只是收集统计信息，那么它可以接受，但我真的不知道。对于律师来说可能是一个更好的问题。

解释robots.txt与使用条款

1 个答案: