嘿我想从html文档中获取标签 这就是尖括号中包含尖括号的所有内容。我怎么能用Java做到这一点? 感谢
答案 0 :(得分:3)
<!-- Read carefully -->
<b><![CDATA[<Everything in angle brackets ("<>") is a tag?>]]></b>
...并使用html解析器。
如果您想手动执行此操作,请迭代输入字符并确定每个<
和>
是否属于标记元素。应遵循一些规则(处理指令,注释,CDATA内容,属性值(!)中的尖括号)。
大多数解析器使用一些switch/case
模式来评估每个标记(在您的情况下为char)。
答案 1 :(得分:2)
我最近使用了jsoup。漂亮的API,易于使用,到目前为止没有问题。不要试图自己解析HTML。见Andreas_D的回答。