应用错误收集

刮取研究项目：一些问题

时间：2014-04-19 20:46:43

标签： web-crawler scrapy

我正在为一个研究项目搜索一些网站，我遇到了一些我认为可能对许多SO用户有用的问题。鉴于一个定义明确的主题（例如观鸟或天体物理），基本上我的目标是：

确定传播这些想法的重要网站
抓取这些网站的代表性样本
执行一些网络分析和数据专题分析（例如主题模型）
在学术场所发布结果，而不发布任何已抓取的数据

为实现这一目标，我发现了以下障碍：

采样方法：显然，建立感兴趣的网站边界是不可能的。由于无法知道数据集的大小，我如何确定样本的代表性？我可以抓取10K，1M或10M页面而不知道何时应该停止。
检测/禁止问题：我的抓取工具基于Scrapy，正在关注robots.txt并尝试不通过在请求之间引入增加的延迟来锤击服务器，从25ms开始。但是，许多服务器仍然检测到爬虫并阻止它。从这个意义上说，我的采样过程完全取决于哪些服务器会让我失望。
法律问题：这显然是一个灰色区域，但我觉得如果我不发布实际页面，我应该是安全的。我可以采取哪些预防措施来避免让人感到不安，特别是如果研究结果令一些网站所有者烦恼？

为研究人员概述一种方法会很好，因为我确信很多人一旦开始抓取一些非常重要的页面就会遇到这些问题。

感谢您的任何建议！

0 个答案:

没有答案