我正在使用selenium在Web门户上收集数据。这里的问题是数据是XML格式但URL扩展名不是.xml,它显示为.aspx,因为它是一个dot net网站。现在使用selenium我可以使用driver.getPageSource()
但它给了我HTML格式。使用HTML在这里分离XML确实很麻烦,我尝试了很多选项,比如JSoup,但似乎有太多的解析要做。
还有其他方法让selenium操纵浏览器。我可以看到File-Save as为我提供了以xml格式保存网页的选项。如何在selenium中执行此操作?是否有任何其他API可以帮助我。
编辑:我的浏览器是Internet Explorer
答案 0 :(得分:1)
你试过这样的吗?
String pageSource=driver.findElement(By.tagName("body")).getText();
查看此 pageSource 内容如果只提供XML内容,您可以使用文件操作将其写入文件。