使用Java在HTML页面中提取动态呈现的内容

时间:2012-05-23 08:23:41

标签: java html parsing html-parsing

我有一个像

这样的HTML页面
<html>
<head>
<!-- necessary java scripts -->
</head>
<body>
<div id="content"></div>
</body>

使用该脚本,当页面呈现时,使用id为“content”的div元素放置适当的html内容。所以在页面渲染之后,有很多带有div元素的html内容。

现在我需要使用Java在div元素中提取动态呈现的内容。任何人都可以建议一种方法吗?

3 个答案:

答案 0 :(得分:1)

问题是您需要在java中评估页面上的脚本。你需要一些网络引擎才能做到这一点。您可以在这里查看:Embedding Gecko/Webkit in Java并尝试使用webkit或gecko来加载页面。然后你可以使用一些java库来解析html。

答案 1 :(得分:0)

您可以使用javax.swing.text.html.HTMLEditorKit.Parser解析html。看一下这个链接

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

答案 2 :(得分:0)