我正在撰写有关服务排名算法的研究,我想通过在公共数据上运行来证明其性能和准确性。让我们说苹果商店数据,谷歌播放,expedia等。我可以从HTML解析他们的数据并在我的研究中使用它吗?或者我会进行非法行为(网络抓取)?
我应该在研究中明确提到数据仅用于科学原因吗?
我已经阅读过有关网页诈骗及其非法性的争议,但我没有找到任何关于它是否仅用于科学目的的文章。
提前致谢
答案 0 :(得分:2)
网站抓取网站没有任何内在的违法行为。
但是,我建议您注意特定网站的“使用条款”,看看它是否是他们明确禁止的内容。例如,Expedia使用条款http://www.expedia.ie/p/support/termsofuse概述:
您不得访问或提供本网站或网站的任何部分 网站的页面通过自动方式,例如使用爬虫或 商店机器人系统地检索或复制信息或连接 网站的内容通过链接功能性地转移到另一个网站
*话虽如此,只要您不对网站施加不合理的负担,或将其内容重新发布为您自己的内容,我就不会发现您会遇到任何问题。
答案 1 :(得分:0)
网页抓取是否合法取决于广泛的事情 - 这可能会让您感到疑惑:https://www.promptcloud.com/blog/is-crawling-legal/