使用python的动态网页爬虫

时间:2020-08-31 22:22:19

标签: python selenium web-crawler dynamic-pages

我想在线阅读这篇文章,并且弹出一些内容,并且我想在我成功提取它之后想脱机阅读...所以在这里我经过4周的试用,所有问题都归结为我即使在所有骚动之后,爬虫似乎也无法阅读网页的内容...

最初的问题是所有信息都不在一个页面上,因此可以使用该按钮浏览网站本身的内容...

我尝试了BeautifulSoup,但它似乎无法很好地解析页面。我目前正在使用硒和chromedriver。

爬虫无法读取页面的原因似乎是robot.txt文件(爬虫等待单个页面的时间为3600,文章大约有10页,这是可以忍受的,但是如果表示100+),我不知道如何绕过它或绕开它。

有帮助吗?

1 个答案:

答案 0 :(得分:1)

如果robots.txt设置了限制,那就结束了。您应该在道德上进行网络爬网,这意味着如果网站所有者希望您在两次请求之间等待3600秒,就可以了。

即使robots.txt没有规定等待时间,您也应该注意。小型企业/网站所有者可能不知道这一点,因此,如果您不断锤打一个网站,对他们来说可能是昂贵的。