Google今天似乎让我失望:我正在寻找一种方法将远程html页面加载到我的Java应用程序中。此HTML页面包含一些生成大部分内容的JavaScript。现在我认为用Java打开页面并查看HTML会非常简单。
当我使用URL.openStream()来读取文件时,我使用JavaScript获取HTML源代码而没有生成的HTML(这是我所期望的)。那么我如何从这里获得HTML源代码,包括生成的内容?我认为这将是相当简单的,但在谷歌上几个小时之后,我完全陷入了Rhino,EnvJs,Jsoup,但它并没有真正让我到任何地方。
有人有任何建议吗?
答案 0 :(得分:2)
是的,基本上没有简单的解决方案,因为你需要实际渲染页面,所以你需要一个javascript引擎(如feeela所说)。
一种解决方案是使用webkit。我没有在Java中使用它,但在Python中。您可以查看WebKit browser in Java app on multiple platforms