是否有一个库可以用来忽略readline中的所有html标签/元素?

时间:2016-03-25 23:59:16

标签: java html string

例如像这样的字符串

<p>colors:</p><ul><li>RED: red</li><li>BLACK: dark</li><li>Other: other colors</li></ul><p>To view the chart as a pie chart, click <b>Pie Chart</b>.</p>

<i class="{0}"></i> Pie Chart

如果我想做简单的移位密码类型的事情,将所有字母字符1移到左边但不更改任何HTML标记。 有没有办法使用一些现有的库? 我知道我可以使用一些现有的lib来删除标签,但我不知道是否存在识别读取的行的部分是否为HTML,如果我愿意,我可以决定忽略它。

帮助?

1 个答案:

答案 0 :(得分:0)

如果您想要一个能够理解HTML(或一般XML)的复杂库,那么SAX解析器就非常棒。它也不太复杂。这些包是javax.xml.parsersorg.xml.sax

SAX-parser是一个基于事件的解析器:它会读取XML(或HTML)并在遇到不同的东西时调用特定的方法。你接下来要做的就是定义这些方法。

Here is a small post about the SAX-parser