从URL检索HTML标记和纯文本

时间:2016-08-25 08:10:47

标签: java android html

我想知道是否可以检索HTML标记和纯文本,例如

<p>This is text </p><div>This is text

使用XmlPullParser?我读过here,不建议这样做。那么是否有任何替代方法或简单的代码,允许您检索我想要的HTML和纯文本?我还是android的初学者。谢谢你的帮助。

2 个答案:

答案 0 :(得分:1)

我认为你最好的选择(我也使用过)是JSOUP。

JSOUP提供了一个非常方便的API,用于使用DOM,CSS和类似jquery的方法提取和操作数据。 JSOUP允许您从URL,文件或字符串中抓取和解析HTML等等。

jSoup:https://jsoup.org/

你有一个很好的教程(不是我的) http://www.androidbegin.com/tutorial/android-basic-jsoup-tutorial/

答案 1 :(得分:0)

JSOUP是一个很好的解析器,也是最常用的解析器之一。

另一件可能对您有帮助的事情是HTML organizer,编写解析器时出现的常见问题是由于格式错误的HTML文件导致的错误。这比您期望的更频繁,因此HTML organizer可以减少错误数量。

我使用的好组织者是:Tidy