使用零deps从Java字符串中剥离HTML标记

时间:2013-03-19 10:11:18

标签: java html regex string

我理解这个问题非常类似于this one和其他问题。我有同样的问题(如何从Java字符串中删除HTML标记?)和添加的约束,我不想添加任何依赖项(Apache Commons,春天,等等到我的代码。

所以我正在寻找许多其他框架使用的HTML标签剥离算法的“纯Java SE”风格,但不确定从哪里开始。提前谢谢。

1 个答案:

答案 0 :(得分:0)

不明确使用HTMLEditorKit:

    String html = "<html>...";
    JTextPane pane = new JTextPane();
    pane.setContentType("text/html");
    pane.setText(html);
    StyledDocument doc = pane.getStyledDocument();
    try {
        System.out.println("Text: " + doc.getText(0, doc.getLength()));
    } catch (BadLocationException ex) {
        Logger.getLogger(NewJFrame.class.getName()).log(Level.SEVERE, null, ex);
    }