使用Selenium从网页中提取动态CDATA

时间:2017-06-23 12:43:51

标签: python selenium web-scraping

我正在尝试从这些54897 pages中的每一个下载整个HTML。但是,Selenium在点击下一页时不会重新加载页面,至少只是表面上看。运行代码后,我意识到所有54897文件都是相同的。它只是继续下载第一个文件。任何人都可以看到这个问题的解决方案吗?这是我的代码:

componentDidMount

1 个答案:

答案 0 :(得分:0)

正如经常发生的那样,您需要为您加载的页面获取DOM。

在这里,我加载第一页,单击下一页,根据 declare device varchar(50) set device = 'laptop' select Owner , device as Devices from test where Devices like '%' + device + '%'; 元素的id获取其DOM。我要求body这个元素,以便(a)我可以使用BeautifulSoup解析它,以证明内容与第一页不同,并且(b)它可以作为50,000个中的一个保存到文件中-odd文件。

innerHTML

如果这对你有用,请标记它已被接受'所以其他人会找到它。