无法将html标记转换为Word文档中的样式

时间:2015-09-25 11:55:53

标签: java docx4j

我需要一个帮助来将像ul,ol这样的html标签转换为相应的纯文本,其样式保存在java中。能够删除标签但是在保留样式方面失败了         e.g:

<ul>
    <li>Coffee</li>
    <li>Tea</li>
    <li>milk</li>
    </ul>

使用下面的样式的纯文本

     •  Coffee
     •  Tea
     •      Milk

有人可以帮忙吗? 谢谢&amp;问候 迪娜

1 个答案:

答案 0 :(得分:0)

Jsoup实际上很简单。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

或者您可以使用

replaceAll("\\<[^>]*>","")