我正在抓取一个使用javascript无限滚动显示结果的网站。
我只能得到10个结果,这些结果显示在第一页中。当您实际浏览该站点时,然后到达第10个结果的底部时,会自动加载更多结果。
我仅使用python的request_html库,并尝试使用r.render()
呈现javascript,并且在Spyder Ide中给出了RunTime error
,然后我尝试在控制台中的cmd中运行,但出现此错误:>
“ pyppeteer.errors.PageError:协议错误:连接已关闭。很可能该页面已关闭。”
我试图寻找ajax数据以获取链接,但发现生成起来很复杂,并且在json中提供数据非常复杂,我想快速抓取结果。
请帮助我,请不要建议硒。我希望一些教程也可以在另一个网站上工作,该网站登录到更复杂的完整Javascipt网页,然后如何使用request_html或使用一些javascript运行库(如果有)处理它。
实际上,我想获取结果,因为我想要20,50或100,但是由于jvascript无限滚动,我只能得到10