我有一系列具有相同结构的HTML文件。
我们来看看这个示例代码。
> <html>
> <head>
> <title>main page</title>
> </head>
> <body>
> <table><tr>
> <td>content1</td>
> </tr></table>
> </body>
> </html>
我想提取标题标记内容和td标记内容。 如何使用htmlunit做到这一点? 我是htmlunit的新手。请帮帮我。
答案 0 :(得分:1)
从HTMLUnit页面查看此instructive snippet。
在那里,您首先构建一个客户端,然后检索您的页面,最后询问标题文本(page.getTitleText()
),或将整个页面作为HTML字符串(page.asXml()
)。然后你可以在那个字符串上assertContains
。
还有很多其他选项,比如通过id检索元素。 最好自己看一下这些例子。
答案 1 :(得分:0)
htmlunit是一个测试系统。不是DOM解析器。
要使用http://about.validator.nu/htmlparser/将HTML解析为DOM并使用HtmlDocumentBuilder类。
获得Document
后,您可以myDocument.getElementsByTagName("title")
找到title元素。