应用错误收集

时间：2013-08-29 10:48:53

标签： web-scraping computer-science ranking

我正在撰写有关服务排名算法的研究，我想通过在公共数据上运行来证明其性能和准确性。让我们说苹果商店数据，谷歌播放，expedia等。我可以从HTML解析他们的数据并在我的研究中使用它吗？或者我会进行非法行为（网络抓取）？

我应该在研究中明确提到数据仅用于科学原因吗？

我已经阅读过有关网页诈骗及其非法性的争议，但我没有找到任何关于它是否仅用于科学目的的文章。

提前致谢

答案 0 :(得分：2)

网站抓取网站没有任何内在的违法行为。

但是，我建议您注意特定网站的“使用条款”，看看它是否是他们明确禁止的内容。例如，Expedia使用条款http://www.expedia.ie/p/support/termsofuse概述：

您不得访问或提供本网站或网站的任何部分网站的页面通过自动方式，例如使用爬虫或商店机器人系统地检索或复制信息或连接网站的内容通过链接功能性地转移到另一个网站

*话虽如此，只要您不对网站施加不合理的负担，或将其内容重新发布为您自己的内容，我就不会发现您会遇到任何问题。

答案 1 :(得分：0)

网页抓取是否合法取决于广泛的事情 - 这可能会让您感到疑惑：https://www.promptcloud.com/blog/is-crawling-legal/