wprintf输出可以在Windows上正确地重定向到UTF-16吗?

时间:2015-08-12 17:27:55

标签: redirect encoding utf-16

在C程序中,我使用wprintf在Windows控制台中打印Unicode(UTF-16)文本。这很好,但是当程序的输出重定向到日志文件时,日志文件的UTF-16编码已损坏。 在Windows命令提示符中完成重定向时,所有换行符都编码为窄ASCII换行符(0d0a)。在PowerShell中完成重定向时,会插入空字符。

是否可以将输出重定向到正确的UTF-16日志文件?

示例程序:

#include <stdio.h>
#include <windows.h>
#include <fcntl.h>
#include <io.h>

int main () {

  int prevmode;

  prevmode = _setmode(_fileno(stdout), _O_U16TEXT);
  fwprintf(stdout,L"one\n");
  fwprintf(stdout,L"two\n");
  fwprintf(stdout,L"three\n");
  _setmode(_fileno(stdout), prevmode);


  return 0;
}

在命令提示符中重定向输出。参见0d0a,它应该是0d00 0a00:

c:\test>.\testu16.exe > o.txt

c:\test>xxd o.txt
0000000: 6f00 6e00 6500 0d0a 0074 0077 006f 000d  o.n.e....t.w.o..
0000010: 0a00 7400 6800 7200 6500 6500 0d0a 00    ..t.h.r.e.e....

在PowerShell中重定向输出。查看插入的所有0000。

PS C:\test> .\testu16.exe > p.txt
PS C:\test> xxd p.txt
0000000: fffe 6f00 0000 6e00 0000 6500 0000 0d00  ..o...n...e.....
0000010: 0a00 0000 7400 0000 7700 0000 6f00 0000  ....t...w...o...
0000020: 0d00 0a00 0000 7400 0000 6800 0000 7200  ......t...h...r.
0000030: 0000 6500 0000 6500 0000 0d00 0a00 0000  ..e...e.........
0000040: 0d00 0a00                                ....

2 个答案:

答案 0 :(得分:1)

&#34;&GT;&#34;即使您在输出中放置BOM或使用prevmode = _setmode(_fileno(stdout), _O_BINARY);,也始终将控制台UTF16重定向为可打印的&#34; ASCII&#34;。我对windows7有同样的问题,没有办法用fwprintf做到这一点。

答案 1 :(得分:1)

我从Hans Passant得到了这个答案。 谢谢汉斯。

错误的换行符是缓冲stdout的效果。在将模式设置回原始模式之前,我们需要刷新流。

prevmode = _setmode(_fileno(stdout), _O_U16TEXT);
fwprintf(stdout,L"one\n");
fwprintf(stdout,L"two\n");
fwprintf(stdout,L"three\n");
fflush(stdout);               /* flush stream */
_setmode(_fileno(stdout), prevmode);

在命令提示符(cmd.exe)中重定向输出会创建正确的UTF-16文件,而不包含BOM。

c:\test>.\testu16 > o.txt

c:\test>xxd o.txt
0000000: 6f00 6e00 6500 0d00 0a00 7400 7700 6f00  o.n.e.....t.w.o.
0000010: 0d00 0a00 7400 6800 7200 6500 6500 0d00  ....t.h.r.e.e...
0000020: 0a00                                     ..

在powershell中,输出仍然是错误的。

PS C:\test> .\testu16 > p.txt
PS C:\test> xxd p.txt
0000000: fffe 6f00 0000 6e00 0000 6500 0000 0d00  ..o...n...e.....
0000010: 0a00 0000 0d00 0a00 0000 7400 0000 7700  ..........t...w.
0000020: 0000 6f00 0000 0d00 0a00 0000 0d00 0a00  ..o.............
0000030: 0000 7400 0000 6800 0000 7200 0000 6500  ..t...h...r...e.
0000040: 0000 6500 0000 0d00 0a00 0000 0d00 0a00  ..e.............
0000050: 0000 0d00 0a00                           ......

这是因为PowerShell不会保持流不受影响。它试图解释它并将其转换为UTF-16。它猜测输入流编码是ANSI。 PowerShell添加了一个UTF-16 BOM,其余的是双重编码的UTF-16。这解释了额外的零。

即使使用out-file并指定编码也没有用。

PS C:\test> .\testu16.exe | out-file p.txt -encoding unicode
PS C:\test> xxd p.txt
0000000: fffe 6f00 0000 6e00 0000 6500 0000 0d00  ..o...n...e.....
0000010: 0a00 0000 0d00 0a00 0000 7400 0000 7700  ..........t...w.
0000020: 0000 6f00 0000 0d00 0a00 0000 0d00 0a00  ..o.............
0000030: 0000 7400 0000 6800 0000 7200 0000 6500  ..t...h...r...e.
0000040: 0000 6500 0000 0d00 0a00 0000 0d00 0a00  ..e.............
0000050: 0000 0d00 0a00                           ......

PowerShell需要了解编码,首先打印UTF-16 BOM表:

prevmode = _setmode(_fileno(stdout), _O_U16TEXT);
fwprintf(stdout, L"\xfeff");  /* UTF-16LE BOM */
fwprintf(stdout,L"one\n");
fwprintf(stdout,L"two\n");
fwprintf(stdout,L"three\n");
fflush(stdout);               /* flush stream */
_setmode(_fileno(stdout), prevmode);

现在我们得到一个正确的UTF-16文件。

PS C:\test> .\testu16 > p.txt
PS C:\test> xxd p.txt
0000000: fffe 6f00 6e00 6500 0d00 0a00 7400 7700  ..o.n.e.....t.w.
0000010: 6f00 0d00 0a00 7400 6800 7200 6500 6500  o.....t.h.r.e.e.
0000020: 0d00 0a00