用硒刮掉网页上的链接

时间:2020-05-30 05:11:16

标签: selenium

我正在尝试抓取一个包含15条文章的网站。问题在于,加载该网站时,它仅显示5篇文章,并要求我们单击“加载更多”按钮以加载其他文章。

在html源中,我找到了前5篇文章的链接。但是随着其他文章的动态加载,它们的链接也不会出现在源代码中。

因此,我使用了硒来加载页面,然后单击功能以单击按钮以加载所有文章。我设法用硒加载了整个站点。

但是现在我的问题是在用硒加载网站上所有这些文章之后,我如何获得到其余文章的链接。

在加载所有文章之后,我曾尝试在python硒中打印driver.pagesource,但仍不包含新动态加载文章的链接。

请提供有关如何获取所有这些文章链接的解决方案。

0 个答案:

没有答案