Java - 从字符串中提取html信息

时间:2012-09-28 06:38:07

标签: java html string tags extract

所有指南告诉我如何从文本中删除HTML标记以提取它们之间的文本。我所追求的是提取HTML标签内的数据。

e.g。

如果我有一个字符串:

 "<FONT SIZE="5">Hello World</FONT>"

我想获取字体大小信息来更新其他变量。我该怎么做?

4 个答案:

答案 0 :(得分:2)

为了这个目的,我多次使用jsoup。这是一个宽松的HTML解析器。请注意尝试将其解析为“标准”XML,因为XML解析本质上是严格的,如果页面不符合XML标记规范(少数HTML页面那样),则会失败。

答案 1 :(得分:1)

您可以使用其中一个可用的Java库进行HTML解析,例如TagSoup

答案 2 :(得分:0)

您可以使用像jerichoHTML这样的库,它可以让您搜索HTML标记及其属性,或者您自己构建一些DOM。

答案 3 :(得分:-1)

看看这个: http://en.wikipedia.org/wiki/Java_API_for_XML_Processing 如果您解析HTML,您应该能够从DOM树中提取值。