从多个页面进行Web爬取内容,而无需通过Webdriver访问每个页面

时间:2019-02-17 03:17:17

标签: javascript python selenium web-scraping web-crawler

我对Web抓取还很陌生,但是我设法创建了一个程序,该程序允许我通过使用Selenium Web驱动程序访问页面来抓取某些数据(动态内容)。

具体来说,我是从“常见问题解答”页面(每个帖子的查看次数)中抓取数据的,但是在此站点上,无法无需单击每个帖子并进行手动检查就可以检查每个帖子的评论数量。目前,我已经进行了编码,以便Web驱动程序可以从每个帖子中浏览视图数,因为它向下扫描常规发布页面的第1页,并继续对后续页面进行浏览。

据我所知,一般发布页面中的源代码不会显示与评论​​数有关的任何内容,而且我认为如果我要访问每一篇文章,处理时间将大大增加。有什么方法可以让我的Web驱动程序不输入每条帖子而获得评论数量?

谢谢!

1 个答案:

答案 0 :(得分:0)

这取决于页面架构。

您可以检查此站点是否使用API​​向数据库发出请求,以便您可以发布一些帖子并使用API​​获取数据。

否则,如果您不能从中受益,则可以尝试将python与aiohttp结合使用,以使残酷的报废避免与异步任务绑定的连接/ IO。

看看:

  1. asyncio
  2. aiohttp
  3. asyncronous scrap sample