Question

我有一系列具有相同结构的HTML文件。

我们来看看这个示例代码。

>     <html>
>     <head>
>     <title>main page</title>
>     </head>
>     <body>
>     <table><tr>
>     <td>content1</td>
>     </tr></table>
>     </body>
>     </html>

我想提取标题标记内容和td标记内容。如何使用htmlunit做到这一点？我是htmlunit的新手。请帮帮我。

Answer 1

从HTMLUnit页面查看此instructive snippet。

在那里，您首先构建一个客户端，然后检索您的页面，最后询问标题文本（page.getTitleText()），或将整个页面作为HTML字符串（page.asXml()）。然后你可以在那个字符串上assertContains。

还有很多其他选项，比如通过id检索元素。最好自己看一下这些例子。

Answer 2

htmlunit是一个测试系统。不是DOM解析器。

要使用http://about.validator.nu/htmlparser/将HTML解析为DOM并使用HtmlDocumentBuilder类。

获得Document后，您可以myDocument.getElementsByTagName("title")找到title元素。

使用htmlunit提取html内容

2 个答案: