python - 使用python的动态网页爬虫

时间：2020-08-31 22:22:19

标签： python selenium web-crawler dynamic-pages

我想在线阅读这篇文章，并且弹出一些内容，并且我想在我成功提取它之后想脱机阅读...所以在这里我经过4周的试用，所有问题都归结为我即使在所有骚动之后，爬虫似乎也无法阅读网页的内容...

最初的问题是所有信息都不在一个页面上，因此可以使用该按钮浏览网站本身的内容...

我尝试了BeautifulSoup，但它似乎无法很好地解析页面。我目前正在使用硒和chromedriver。

爬虫无法读取页面的原因似乎是robot.txt文件（爬虫等待单个页面的时间为3600，文章大约有10页，这是可以忍受的，但是如果表示100+），我不知道如何绕过它或绕开它。

有帮助吗？

答案 0 :(得分：1)

如果robots.txt设置了限制，那就结束了。您应该在道德上进行网络爬网，这意味着如果网站所有者希望您在两次请求之间等待3600秒，就可以了。

即使robots.txt没有规定等待时间，您也应该注意。小型企业/网站所有者可能不知道这一点，因此，如果您不断锤打一个网站，对他们来说可能是昂贵的。