如何在HTML文档中获取html标记

时间:2011-03-01 13:22:53

标签: java html-parsing

嘿我想从html文档中获取标签 这就是尖括号中包含尖括号的所有内容。我怎么能用Java做到这一点? 感谢

2 个答案:

答案 0 :(得分:3)

<!-- Read carefully -->
<b><![CDATA[<Everything in angle brackets ("<>") is a tag?>]]></b>

...并使用html解析器。


如果您想手动执行此操作,请迭代输入字符并确定每个<>是否属于标记元素。应遵循一些规则(处理指令,注释,CDATA内容,属性值(!)中的尖括号)。

大多数解析器使用一些switch/case模式来评估每个标记(在您的情况下为char)。

答案 1 :(得分:2)

我最近使用了jsoup。漂亮的API,易于使用,到目前为止没有问题。不要试图自己解析HTML。见Andreas_D的回答。