应用错误收集

使用java从excel文件中的列中删除HTML标记

时间：2017-04-19 17:11:26

标签： java html excel loops tableau

我正在使用java代码从文本文件中删除HTML标记。但我的要求是，我想使用java访问excel文件，并从特定列的每一行中删除HTML标记。如何使用javascript访问excel文件以及如何将我的java代码（删除HTML标签）集成到...

import java.io.*;
import java.util.logging.Logger;
public class Html2TextWithRegExp {

    private Html2TextWithRegExp() {}

    public static void main (String[] args) throws Exception{
        StringBuilder sb = new StringBuilder();
        BufferedReader br = new BufferedReader(new FileReader("java-new.txt"));
        String line;
        while ( (line=br.readLine()) != null) {
            sb.append(line);
        }
        String nohtml = sb.toString().replaceAll("\\<.*?>","");
        System.out.println(nohtml);
        try(  PrintWriter out = new PrintWriter( "nohtml.txt" )){
            out.println( nohtml );
        }
    }
}

1 个答案:

答案 0 :(得分：1)

您可以使用jsoup。然后你可以这样做：

String noHTML = Jsoup.parse(sb.toString()).text();

不要使用正则表达式; HTML不是常规语言，您不太可能处理所有必然会出现的特殊情况。

我最近使用这种方法来清理我用于机器学习任务的一堆论坛帖子，并且它运行得很好。