应用错误收集

为什么无法抓取某些网站？

时间：2018-10-19 15:02:42

标签： python web-scraping beautifulsoup

我目前正在学习如何使用Python / BeautifulSoup抓取网站，并且想知道为什么某些网页可以被抓取而其他网页不能被抓取。

例如：

https://www.bbc.co.uk/programmes/b0072l9v/episodes/player-主要内容表可以抓取
https://www.bbc.co.uk/programmes/m0000q6v-主要内容桌子不能刮掉

某些页面是否具有某种防止刮擦的安全性？

1 个答案:

答案 0 :(得分：0)

为了测试特定网页是否可以被抓取，我会尝试做的第一件事是针对scrapy shell运行该网页，然后我将回复返回到view(response)，因此该响应中返回的任何内容都可以删除。