我的文件应该是UTF-8编码的。我相信for reasons
有些可能包含ISO8859-1编码的德语变音符号。我以为我可以启动文件搜索STRG+H
并使用正则表达式进行搜索:[\xe5\xf6\xfc\xc4\xd6\xdc\xdf\xa7]
。有趣的是,它还返回正确UTF-8编码的变音符号 - 宽度为2个字节。
我怎样才能找到错误编码的变音符号?
我想找到charset ISO8859-1中定义的一个字节字符 - 高于127。
像0xFC 0x00FC # LATIN SMALL LETTER U WITH DIAERESIS
如定义here
此字符存在于UTF-8
中,宽度为两个字节:C3 BC