所有指南告诉我如何从文本中删除HTML标记以提取它们之间的文本。我所追求的是提取HTML标签内的数据。
e.g。
如果我有一个字符串:
"<FONT SIZE="5">Hello World</FONT>"
我想获取字体大小信息来更新其他变量。我该怎么做?
答案 0 :(得分:2)
答案 1 :(得分:1)
您可以使用其中一个可用的Java库进行HTML解析,例如TagSoup。
答案 2 :(得分:0)
您可以使用像jerichoHTML这样的库,它可以让您搜索HTML标记及其属性,或者您自己构建一些DOM。
答案 3 :(得分:-1)
看看这个: http://en.wikipedia.org/wiki/Java_API_for_XML_Processing 如果您解析HTML,您应该能够从DOM树中提取值。