.Net Regex for Latin-1 Supplement(\ x80- \ xFF)字符

时间:2011-08-03 15:19:45

标签: .net regex vb.net unicode

我正在处理用户提交的文件,其中包含许多无效字符,其中大多数文件都是将MS Word转换为连字符或引号为“智能引号”。我正在编写一种方法来专门替换其中的几个(例如将en-dashes转换回连字符),现在我需要用空格替换所有其他“无效”字符。所以我的第一次尝试是使用正则表达式将无效字符与“[\ x80- \ xFF]”匹配,然后仅替换匹配项。我的想法是,只有循环匹配才能比127替换为blah = blah.replace(chr(128),“”)更快。

我遇到的问题是.net正则表达式似乎与\ x7F(dec 127)上的十六进制值不匹配或替换。有没有办法设置.net正则表达式来使用完整的unicode字符集?

提前致谢。

0 个答案:

没有答案