Question

我希望我的C＃应用程序（具有GUI）帮助用户在“unicode（utf-8）”和“legacy（cp1252）”之间进行选择。我想给用户两个独立的真/假读数，关于文件是否能够“成功”（尽管不一定正确）以这两种格式读入而不会丢失细节。

当我在C＃中尝试以下操作时，它无效。也就是说，它似乎总是返回true，即使我在一个我知道包含非罗马字符的utf-8文本文件中调用它。

[编辑：实际上，我不应该认为这应该失败。可能是那些合理的成功之一恰好是不正确的，因为大多数（全部？）字节流也是有效的cp1252。测试另一个方向确实找到了无效的utf-8，如下面的Python代码那样。]

E.g。 CanBeReadAs（“nepali.txt”，Encoding.GetEncoding（1252））应该返回false，但它返回true。

public static bool CanBeReadAs(string filePath, Encoding encoding)
    {
        // make it strict:
        encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);
        using (var r = new StreamReader(filePath, encoding, false))
        {
            try
            {
                r.ReadToEnd();
            }
            catch (Exception e)
            {
                //swallow
                return false;
            }
        }
        return true;
    }

我也尝试过“string s = r.ReadToEnd（）;”只是为了确保它真的被迫解码数据，但这似乎并没有影响任何事情。

我做错了什么？

注意：如果我需要做一些特殊处理BOM的事情，请告诉我。如果这很简单，我倾向于忽略它们。（其中一些文件有混合编码，顺便说一下，虽然我想认为实际上以BOM开头的任何东西都是纯粹的unicode。）

这是我创建的Python脚本，它使用相同的策略并且工作正常：

def bad_encoding(filename, enc='utf-8', max=9):
'''Return a list of up to max error strings for lines in the file not encoded in the specified encoding. 

Otherwise, return an empty list.'''

errors = []
line = None
with open(filename, encoding=enc) as f:
    i = 0
    while True:
        try:
            i += 1
            line = f.readline()
        except UnicodeDecodeError:
            errors.append('UnicodeDecodeError: Could not read line {} as {}.'.format(i, enc))
        if not line or len(errors) > max:
            break

return errors

Answer 1

通过Encoding类（Ascii，UTF8，Unicode等）可用的静态编码实例都试图尽最大努力解码输入字节，如果失败则不抛出。

要创建具有特定编码/解码行为的编码，您应该使用带有EncoderFallback / DecoderFallback参数的Encoding.GetEncoding重载。我尝试创建各种编码的实例（AsciiEncoding，UTF8Endcoding），但它们是只读的，因此设置回退选项始终会抛出InvalidOperationException。在您的情况下，要创建在解码失败时抛出的实例，请尝试：

encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);

如何使C＃抛出解码异常？

1 个答案: