有没有什么方法可以在Java中将html转换为可读格式?

时间:2011-09-09 09:38:40

标签: java

我有一些内容采用html格式的电子邮件,我希望以可读格式保存在数据库中的任何输入。

此外我还收到了一个文本文件转储的电子邮件,我需要从中提取数据。任何输入。所有在java

5 个答案:

答案 0 :(得分:2)

如果您要删除所有HTML标记,请查看Jsoup。 下面的代码使用Jsoup应该删除所有的html标签,并为您提供纯文本。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

答案 1 :(得分:1)

您可以尝试删除所有代码,只留下代码内容的“文字”:

String text = str.replaceAll("(?m)<.*?>", "");

但它并不适用于所有情况。

答案 2 :(得分:0)

HTML a&#34;可读&#34;格式。但是,如果您正在寻找抽象HTML主义的东西,那么您可以查看几个库。 jsoup就是一个例子。这里要查找的关键字主要是&#34; DOM&#34;,&#34; HTML解析器&#34;和&#34; XSS预防&#34;。

答案 3 :(得分:0)

您可以使用HtmlCleaner删除html标记。

答案 4 :(得分:0)

This page描述了三种提取数据的方法

  • 使用正则表达式
  • 使用Swing
  • 中包含的HTMLEditorKit
  • 使用像JSoup
  • 这样的HTML解析器库

哪一个最适合你的是你决定,一个重要的考虑因素是它为你的应用程序添加的依赖项 - 例如,如果你已经有一个桌面应用程序,Swing依赖可能不会受到伤害,而在服务器应用程序中可能不是最好的主意。