我希望我的C#应用程序(具有GUI)帮助用户在“unicode(utf-8)”和“legacy(cp1252)”之间进行选择。我想给用户两个独立的真/假读数,关于文件是否能够“成功”(尽管不一定正确)以这两种格式读入而不会丢失细节。
当我在C#中尝试以下操作时,它无效。也就是说,它似乎总是返回true,即使我在一个我知道包含非罗马字符的utf-8文本文件中调用它。
[编辑:实际上,我不应该认为这应该失败。可能是那些合理的成功之一恰好是不正确的,因为大多数(全部?)字节流也是有效的cp1252。测试另一个方向确实找到了无效的utf-8,如下面的Python代码那样。]
E.g。 CanBeReadAs(“nepali.txt”,Encoding.GetEncoding(1252))应该返回false,但它返回true。
public static bool CanBeReadAs(string filePath, Encoding encoding)
{
// make it strict:
encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);
using (var r = new StreamReader(filePath, encoding, false))
{
try
{
r.ReadToEnd();
}
catch (Exception e)
{
//swallow
return false;
}
}
return true;
}
我也尝试过“string s = r.ReadToEnd();”只是为了确保它真的被迫解码数据,但这似乎并没有影响任何事情。
我做错了什么?
注意:如果我需要做一些特殊处理BOM的事情,请告诉我。如果这很简单,我倾向于忽略它们。 (其中一些文件有混合编码,顺便说一下,虽然我想认为实际上以BOM开头的任何东西都是纯粹的unicode。)
这是我创建的Python脚本,它使用相同的策略并且工作正常:
def bad_encoding(filename, enc='utf-8', max=9):
'''Return a list of up to max error strings for lines in the file not encoded in the specified encoding.
Otherwise, return an empty list.'''
errors = []
line = None
with open(filename, encoding=enc) as f:
i = 0
while True:
try:
i += 1
line = f.readline()
except UnicodeDecodeError:
errors.append('UnicodeDecodeError: Could not read line {} as {}.'.format(i, enc))
if not line or len(errors) > max:
break
return errors
答案 0 :(得分:3)
通过Encoding类(Ascii,UTF8,Unicode等)可用的静态编码实例都试图尽最大努力解码输入字节,如果失败则不抛出。
要创建具有特定编码/解码行为的编码,您应该使用带有EncoderFallback / DecoderFallback参数的Encoding.GetEncoding
重载。我尝试创建各种编码的实例(AsciiEncoding,UTF8Endcoding),但它们是只读的,因此设置回退选项始终会抛出InvalidOperationException。在您的情况下,要创建在解码失败时抛出的实例,请尝试:
encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);