如何从非html字符串中删除所有特殊符号,如 - 和其他符号?

时间:2015-03-05 21:20:28

标签: java html-parsing

如何删除所有特殊符号,例如& MDASH; &安培; NBSP;和其他非HTML字符串?我有一个带有这个垃圾的java String对象。我需要删除所有特殊字符串,如& MDASH; &安培; NBSP; &安培; LAQUO; &安培; RAQUO;用java怎么做?我没有html字符串。

1 个答案:

答案 0 :(得分:0)

使用字符串的replaceAll方法。

String str = ...
str =str.replaceAll(" "," "); //changes &nbsp to space

如果您只想删除所有这些(替换为"")。要一次性处理所有不需要的序列,请定义requex模式,并使用它来删除序列。

Pattern p = Pattern.compile(...)
Matcher m = p.matcher(str);
str = m.replaceAll("");