ICU字节订单标记(BOM)

时间:2011-08-19 15:30:47

标签: c++ unicode endianness icu byte-order-mark

我正在使用ICU的ustdio函数将UnicodeString对象写入一系列编码中的文件,但它似乎不会添加BOM。

我的代码:

void write_file(const char* filename, UnicodeString &str) {

    UFILE* f = u_fopen(filename, "w", NULL, "UTF-16 LE");
    u_file_write(str.getTerminatedBuffer(), str.length() + 1, f);
    u_fclose(f);
}

int _tmain(int argc, _TCHAR* argv[])
{
    UnicodeString str(L"ΠαρθένωνΗ");

    write_file("test.txt", str);

    return 0;
}

当我将LE更改为BE时,文件编码会进行交换,但是没有BOM,十六进制编辑器中的输出文件是:

A0 03 B1 03  C1 03 B8 03  AD 03 BD 03  C9 03 BD 03  97 03 00 00

注意:如果我将代码页设置为“UTF-16”,则会有BOM,但是一旦我手动指定了字节顺序,它就会消失。

或者有一种方法可以将UnicodeString写入带有BOM的文件吗?

2 个答案:

答案 0 :(得分:5)

只是猜测,“UTF-16 LE”和“UTF-16 BE”旨在在明确指定字节顺序时使用,并且在使用该文件的上下文中不需要BOM。 / p>

您应该可以将自己的BOM character '\ufeff'写入文件。

答案 1 :(得分:2)

u_fputc(0x00feff,f);

会这样做。