从GWT页面提取HTML内容

时间:2012-04-26 10:13:42

标签: html gwt html-parsing jericho-html-parser

我想解析用GWT编写的HTML页面的内容。我尝试使用Jericho HTML内容解析器解析它,但问题是页面源没​​有内容。在对GWT页面进行一些研究之后,我开始知道GWT页面是用JAVA编写的,而GWT编译器从java代码创建了一个复杂的js页面结构,以在浏览器上显示HTML内容。

有没有办法可以解析这些类型的页面?

2 个答案:

答案 0 :(得分:1)

如果代码是在OBF - Obfuscated mode中编译的(代码通常在此模式下编译以供生产使用),那将非常困难,因为创建的JS文件是非人类可读的。

这个link可能有助于您更好地理解GWT编译器。

修改

Here you go。这可能也会有所帮助。这里提到了如何De-obfuscate the Javascript

<强> EDIT2

GWT-Penetration-Testing-Toolset - 检查此工具。

答案 1 :(得分:1)

就像(m)任何“单页网络应用程序”(包括例如Twitter,使用GWT构建)一样,您必须运行JavaScript代码然后刮掉DOM。

使用HtmlUnitPhantomJS或类似工具可以轻松(一切都是相对的)。