Question

例如像这样的字符串

<p>colors:</p><ul><li>RED: red</li><li>BLACK: dark</li><li>Other: other colors</li></ul><p>To view the chart as a pie chart, click <b>Pie Chart</b>.</p>

或

<i class="{0}"></i> Pie Chart

如果我想做简单的移位密码类型的事情，将所有字母字符1移到左边但不更改任何HTML标记。有没有办法使用一些现有的库？我知道我可以使用一些现有的lib来删除标签，但我不知道是否存在识别读取的行的部分是否为HTML，如果我愿意，我可以决定忽略它。

帮助？

Answer 1

如果您想要一个能够理解HTML（或一般XML）的复杂库，那么SAX解析器就非常棒。它也不太复杂。这些包是javax.xml.parsers和org.xml.sax。

SAX-parser是一个基于事件的解析器：它会读取XML（或HTML）并在遇到不同的东西时调用特定的方法。你接下来要做的就是定义这些方法。

Here is a small post about the SAX-parser

是否有一个库可以用来忽略readline中的所有html标签/元素？

1 个答案: