是的,我知道有一个类似的问题,但我想要一个不同的东西。
我想标准化标点符号,空格,引号,连字符等,但不要触及字母。
双引号,单引号,空格等有很多不同的字符。我想用默认字符替换所有可能性。
目前,我正在使用正则表达式,但我正在收集我发现的所有可能性并手动添加到正则表达式。我想知道是否有一个可以执行此操作的库,但不要更改字母,如将重音字母替换为非重音字母。
编辑:
以下是一些例子:
text.replaceAll("[–––—]", "-");
text.replaceAll("[\\u0000-\\u0009\\u000B-\\u001F\\u0080-\\u009F]", "");
replacedText = text.replaceAll("[“”“”““”“”“”“”“”]", "\"");
text.replaceAll("[\\u00A0\\u2000-\\u200B\\u205F\t]+", " ");
很多字符具有相同的字体表示,但在Unicode中是不同的字符。