如何解析HTML中存在的以下字符串并在Java中构建DOM树?

时间:2010-12-16 09:46:58

标签: java html dom

我在html中有以下字符串,我想构建Dom树并获取名称值对。我如何使用html解析器或xml解析器或REGEXP来做到这一点。任何代码段都很有用。感谢



<$$TagStarts>

<==0>Name0</==0><##0>Value0</##0>
<==1>Name1</==1><##1>Value1</##1>
<==2>Name2</==2><##2>Value2</##2>
<==3>Name3</==3><##3>Value3</##3>
<==4>Name4</==4><##4>Value4</##4>
<==5>Name5</==5><##5>Value5</##5>

</$$TagStarts>


1 个答案:

答案 0 :(得分:3)

假设标签名称仅用于样本......并且您将拥有一些有意义的标签名称......

尝试使用以下任何HTML解析器......

http://home.ccil.org/~cowan/XML/tagsoup/

http://nekohtml.sourceforge.net/

http://jtidy.sourceforge.net/

他们将为您提供符合W3标准的文档对象....在此之后,它只是一个getElementsByTagNamegetElementById的游戏,或者使用XPath或Xquery来获取DOM中的元素。

否则您可以使用以下内容......他们有自己的文档对象实现...

http://htmlcleaner.sourceforge.net/ [它还有一些基本的XPath支持]

http://jsoup.org/ [它有像query API]的jquery

添加 检查一下...... http://jsoup.org/cookbook/extracting-data/selector-syntax

我会推荐...... JSoup或Nekohtml