我正在处理第三方API / Web服务,他们只允许在XML中使用latin-1字符集。是否有现有的API /方法可以查找并替换String中的所有非拉丁字符?
例如:凯文
有没有提出凯文?
答案 0 :(得分:2)
使用ICU4J,
public String removeAccents(String text) {
return Normalizer.decompose(text, false, 0)
.replaceAll("\\p{InCombiningDiacriticalMarks}+", "");
}
我在http://glaforge.appspot.com/article/how-to-remove-accents-from-a-string
找到了这个例子在java 1.6中,可能内置了必要的规范化器。