Question

我正在使用selenium在Web门户上收集数据。这里的问题是数据是XML格式但URL扩展名不是.xml，它显示为.aspx，因为它是一个dot net网站。现在使用selenium我可以使用driver.getPageSource()

获取页面源代码

但它给了我HTML格式。使用HTML在这里分离XML确实很麻烦，我尝试了很多选项，比如JSoup，但似乎有太多的解析要做。

还有其他方法让selenium操纵浏览器。我可以看到File-Save as为我提供了以xml格式保存网页的选项。如何在selenium中执行此操作？是否有任何其他API可以帮助我。

编辑：我的浏览器是Internet Explorer

Answer 1

你试过这样的吗？

String pageSource=driver.findElement(By.tagName("body")).getText();

查看此 pageSource 内容如果只提供XML内容，您可以使用文件操作将其写入文件。