我正在使用java代码从文本文件中删除HTML标记。但我的要求是,我想使用java访问excel文件,并从特定列的每一行中删除HTML标记。如何使用javascript访问excel文件以及如何将我的java代码(删除HTML标签)集成到...
import java.io.*;
import java.util.logging.Logger;
public class Html2TextWithRegExp {
private Html2TextWithRegExp() {}
public static void main (String[] args) throws Exception{
StringBuilder sb = new StringBuilder();
BufferedReader br = new BufferedReader(new FileReader("java-new.txt"));
String line;
while ( (line=br.readLine()) != null) {
sb.append(line);
}
String nohtml = sb.toString().replaceAll("\\<.*?>","");
System.out.println(nohtml);
try( PrintWriter out = new PrintWriter( "nohtml.txt" )){
out.println( nohtml );
}
}
}
答案 0 :(得分:1)
您可以使用jsoup。然后你可以这样做:
String noHTML = Jsoup.parse(sb.toString()).text();
不要使用正则表达式; HTML不是常规语言,您不太可能处理所有必然会出现的特殊情况。
我最近使用这种方法来清理我用于机器学习任务的一堆论坛帖子,并且它运行得很好。