c# - 为什么我们在Encoder.GetBytes方法中使用flush参数

时间：2010-10-04 18:28:30

标签： c# .net vb.net character-encoding base-class-library

这个link解释了Encoder.GetBytes方法，并且还有一个名为flush的bool参数。冲洗的解释是：

如果此编码器可以刷新它，则为true 转换结束时的状态; 否则，错误。确保正确终止一系列的编码字节，最后一次调用 GetBytes可以指定值true 为了冲洗。

但是我不明白同花顺是做什么的，也许我喝醉了或者喝了东西:)。请你详细解释一下。

答案 0 :(得分：6)

假设您通过套接字连接接收数据。您将收到多个byte[]块的长文本。

1个Unicode字符可能在UTF-8流中占用2个以上的字节，并且它可以分割为2个字节的块。单独编码2个字节块（并连接字符串）会产生错误。

因此，您只能在最后一个块上指定flush=true。当然，如果你只有1个街区，那么这也是最后一个。

提示：使用TextReader并让它为您处理此问题。

修改

镜像问题（实际上是问：GetBytes）稍微难以解释。

使用flush=true与在GetBytes(...)之后使用Encoder.Reset()相同。它清除了编码器的“状态”，

包括前一个数据块末尾的尾随字符，例如无法匹配的高代理

基本思路是一样的：当从string转换为字节块时，反之亦然，这些块不独立。

答案 1 :(得分：2)

在内部Encoder将使用缓冲区实现 - 此缓冲区可能需要刷新（清除）才能正确结束读取或准备Encoder以进行下一次读取。

Here是缓冲区刷新的一种解释。

flush参数的确切用法描述为here：

如果转换后清除编码器的内部状态，则为true;否则，错误。

答案 2 :(得分：2)

刷新将重置编码器实例的内部状态，用于将文本编码为字节。 为什么需要内部状态，你问？那么，引用MSDN：

flush参数对于在流的末尾刷新高代理项非常有用没有低代理人。例如，由...创建的编码器 UTF8Encoding.GetEncoder使用此参数来确定是否写出在一个角色块的末尾悬挂着高代理人。

如果您正在使用多个GetBytes()，那么您需要在末尾刷新内部状态以终止任何需要终止的字符序列，但最后仅，因为终止序列可能会在单词的中间引入。

请注意，如今这可能只是一个纯粹的理论问题。而且，你会更好using higher-level wrappers anyway。如果你这样做，醉酒不会有问题。