为什么我们在Encoder.GetBytes方法中使用flush参数

时间:2010-10-04 18:28:30

标签: c# .net vb.net character-encoding base-class-library

这个link解释了Encoder.GetBytes方法,并且还有一个名为flush的bool参数。冲洗的解释是:

  

如果此编码器可以刷新它,则为true   转换结束时的状态;   否则,错误。确保正确   终止一系列的   编码字节,最后一次调用   GetBytes可以指定值true   为了冲洗。

但是我不明白同花顺是做什么的,也许我喝醉了或者喝了东西:)。请你详细解释一下。

3 个答案:

答案 0 :(得分:6)

假设您通过套接字连接接收数据。您将收到多个byte[]块的长文本。

1个Unicode字符可能在UTF-8流中占用2个以上的字节,并且它可以分割为2个字节的块。单独编码2个字节块(并连接字符串)会产生错误。

因此,您只能在最后一个块上指定flush=true。当然,如果你只有1个街区,那么这也是最后一个。

提示:使用TextReader并让它为您处理此问题。

修改

镜像问题(实际上是问:GetBytes)稍微难以解释。

使用flush=true与在GetBytes(...)之后使用Encoder.Reset()相同。它清除了编码器的“状态”,

  

包括前一个数据块末尾的尾随字符,例如无法匹配的高代理

基本思路是一样的:当从string转换为字节块时,反之亦然,这些块独立。

答案 1 :(得分:2)

在内部Encoder将使用缓冲区实现 - 此缓冲区可能需要刷新(清除)才能正确结束读取或准备Encoder以进行下一次读取。

Here是缓冲区刷新的一种解释。

flush参数的确切用法描述为here

  

如果转换后清除编码器的内部状态,则为true;否则,错误。

答案 2 :(得分:2)

刷新将重置编码器实例的内部状态,用于将文本编码为字节。 为什么需要内部状态,你问?那么,引用MSDN:

  

flush参数对于在流的末尾刷新高代理项非常有用   没有低代理人。例如,由...创建的编码器   UTF8Encoding.GetEncoder使用此参数来确定是否写出   在一个角色块的末尾悬挂着高代理人。

如果您正在使用多个GetBytes(),那么您需要在末尾刷新内部状态以终止任何需要终止的字符序列,但最后仅 ,因为终止序列可能会在单词的中间引入。

请注意,如今这可能只是一个纯粹的理论问题。而且,你会更好using higher-level wrappers anyway。如果你这样做,醉酒不会有问题。