我有一些内容采用html格式的电子邮件,我希望以可读格式保存在数据库中的任何输入。
此外我还收到了一个文本文件转储的电子邮件,我需要从中提取数据。任何输入。所有在java
答案 0 :(得分:2)
如果您要删除所有HTML标记,请查看Jsoup。 下面的代码使用Jsoup应该删除所有的html标签,并为您提供纯文本。
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
答案 1 :(得分:1)
您可以尝试删除所有代码,只留下代码内容的“文字”:
String text = str.replaceAll("(?m)<.*?>", "");
但它并不适用于所有情况。
答案 2 :(得分:0)
HTML a&#34;可读&#34;格式。但是,如果您正在寻找抽象HTML主义的东西,那么您可以查看几个库。 jsoup就是一个例子。这里要查找的关键字主要是&#34; DOM&#34;,&#34; HTML解析器&#34;和&#34; XSS预防&#34;。
答案 3 :(得分:0)
您可以使用HtmlCleaner删除html标记。
答案 4 :(得分:0)
This page描述了三种提取数据的方法
哪一个最适合你的是你决定,一个重要的考虑因素是它为你的应用程序添加的依赖项 - 例如,如果你已经有一个桌面应用程序,Swing依赖可能不会受到伤害,而在服务器应用程序中可能不是最好的主意。