使用htmlunit提取html内容

时间:2011-07-08 03:59:59

标签: java extract htmlunit

我有一系列具有相同结构的HTML文件。

我们来看看这个示例代码。

>     <html>
>     <head>
>     <title>main page</title>
>     </head>
>     <body>
>     <table><tr>
>     <td>content1</td>
>     </tr></table>
>     </body>
>     </html>

我想提取标题标记内容和td标记内容。 如何使用htmlunit做到这一点? 我是htmlunit的新手。请帮帮我。

2 个答案:

答案 0 :(得分:1)

从HTMLUnit页面查看此instructive snippet

在那里,您首先构建一个客户端,然后检索您的页面,最后询问标题文本(page.getTitleText()),或将整个页面作为HTML字符串(page.asXml())。然后你可以在那个字符串上assertContains

还有很多其他选项,比如通过id检索元素。 最好自己看一下这些例子。

答案 1 :(得分:0)

htmlunit是一个测试系统。不是DOM解析器。

要使用http://about.validator.nu/htmlparser/将HTML解析为DOM并使用HtmlDocumentBuilder类。

获得Document后,您可以myDocument.getElementsByTagName("title")找到title元素。