Question

我看到了一些像这样的代码：为什么同时使用MultiByteToWideChar和WideCharToMultiByte？

char szLine[MAX_LENGTH_STRING] = {0}
... //some operate to szLine
char *szUtf8string;
wchar_t *szUnicodeString;
int size;
int room;
size = strlen(szLine)+1;
room = MultiByteToWideChar(CP_ACP, 0, szLine, -1, NULL, 0);
szUnicodeString = (wchar_t*) malloc((sizeof(wchar_t))*room);
MultiByteToWideChar(CP_ACP, 0, szLine, -1, szUnicodeString, room);

room = WideCharToMultiByte(CP_UTF8, 0, szUnicodeString, -1, NULL, 0, NULL, NULL);
szUtf8string = (char*) malloc(room);
WideCharToMultiByte(CP_UTF8, 0, szUnicodeString, -1, szUtf8string, room, NULL, NULL);

Answer 1

此代码片段首先将字符串从使用系统默认代码页的多字节表示转换为Unicode，然后将其转换为UTF-8多字节表示形式。因此，它将默认代码页中的文本转换为UTF-8表示。

代码很脆弱，因为它假设UTF-8版本的大小只会翻倍（这可能在大部分时间都有效，但最糟糕的情况是默认代码页中的单个字节可能映射到4个字节在UTF-8）。

为什么同时使用MultiByteToWideChar和WideCharToMultiByte？

1 个答案: