网站抓取只会对拥有网站的人造成伤害吗?

时间:2018-12-27 08:17:53

标签: web-scraping server beautifulsoup scrapy scrape

今天,我使用beautifulsoup4抓取了一个网站,并尝试在该网站上获取约16.000个数据。 此后仅几分钟,该站点就崩溃了,无法访问约几个小时。 所以..我的问题是:

网络抓取只会对拥有网站的人造成伤害吗?

1 个答案:

答案 0 :(得分:2)

首先,建议先检查每个站点的 robots.txt 文件,然后再像您刚才那样用自动请求对其进行轰炸。这对网站所有者和您都不利。为了抓取网站,请在开始编写网络抓取工具之前按照以下步骤操作:

  1. 检查网站是否已提供API,以简化您的任务。如果不是,请转到步骤2。
  2. 检出 robots.txt 中存在的 www.anywebsite.com/robots.txt 文件。如果所有者列出了此页面(大多数情况下会列出),则可以查看是否允许机器人访问该网站。如果是,则检查不允许使用的页面,并检查是否有任何速率限制。
  3. 如果没有 robots.txt 文件,请确保您足够柔和,不要以子弹般的速度向网站提出请求。这可能会对所有者造成伤害,并且您可能永远被阻止访问该网站。