使用XMLPullParser解析包含html标记的内容

时间:2014-02-04 07:12:02

标签: android nested html-parsing xmlpullparser

我正在使用XmlPullParser在Android中构建一个应用程序。

如何从这样格式的html中获取内容?

<div class="content">
"Some text is here."
<br>
"some more text "<a class="link" href="adress">continues here</a>
<br>
</div>

我想解析所有这样的内容:

"Some text is here. 
 some more text continues here"

“继续在这里”部分也应该是超链接。

补充一些评论之后:首先将HTML放入Yahoo YQL,YQL生成XML。我在代码中使用生成的XML文件。我要解析的上述部分来自生成的XML。

2 个答案:

答案 0 :(得分:0)

HTML和XML虽然在某些情况下共享通用语法,但不同。我认为为此目的使用XmlPullParser并不是一个好主意。我建议使用其中一个Java HTML parsers

答案 1 :(得分:0)

XmlPullParser旨在处理XML。在网络上结构良好的XHMTL页面真的很少见。 XML Parser期望格式良好的数据,并且不应该是容错的。另一方面,HTML通常组织松散。

所以,不,这不是一个好主意。您应该更喜欢其他库,例如tagsoupgeronimo

PS:当你问一个堆栈流量问题时最好的是自己尝试一下,如果被阻止,那就问。不是相反。