加载并保存带有抛光字符的HTML文件

时间:2013-04-30 09:50:15

标签: c++ encoding fstream polish

我需要加载HTML模板文件(使用std::ifstream),添加一些内容,然后将其保存为完整的网页。如果没有波兰字符就足够简单 - 我已经尝试了char / wchar_tUnicode / Multi-Byte字符集的所有组合,iso-8859-2 / utf-8ANSI / utf-8并且它们都没有为我工作(总是有一些错误显示的字符(或者其中一些字符根本没有显示)。

我可以在这里粘贴很多代码和文件,但我不确定这是否会有所帮助。但也许您可以告诉我:模板文件应该具有什么格式/编码,我应该在网页中声明什么编码,以及如何加载和保存该文件以获得正确的结果?

(如果我的问题不够具体或您执行需要代码/文件示例,请与我们联系。)

编辑: 我已经尝试了评论中建议的库:

std::string fix_utf8_string(std::string const & str)
{
    std::string temp;
    utf8::replace_invalid(str.begin(), str.end(), back_inserter(temp));
    return str;
}

呼叫:

fix_utf8_string("wynik działania pozytywny ąśżźćńłóę");

抛出:utf8::not_enough_room - 我做错了什么?

1 个答案:

答案 0 :(得分:0)

不确定这是否是完美的方式,但以下解决方案对我有用!

我将我的HTML模板文件保存为ANSI(或者至少是Notepad ++所说的)并更改了每个写入文件流操作:

file << std::string("some text with polish chars: ąśżźćńłóę");

为:

file << ToUtf8("some text with polish chars: ąśżźćńłóę");

其中:

std::string ToUtf8(std::string ansiText)
{
    int ansiRequiredSize = MultiByteToWideChar(1250, 0, ansiText.c_str(), ansiText.size(), NULL, 0);
    wchar_t * wideText = new wchar_t[ansiRequiredSize + 1];
    wideText[ansiRequiredSize] = NULL;
    MultiByteToWideChar(1250, 0, ansiText.c_str(), ansiText.size(), wideText, ansiRequiredSize);
    int utf8RequiredSize = WideCharToMultiByte(65001, 0, wideText, ansiRequiredSize, NULL, 0, NULL, NULL);
    char utf8Text[1024];
    utf8Text[utf8RequiredSize] = NULL;
    WideCharToMultiByte(65001, 0, wideText, ansiRequiredSize, utf8Text, utf8RequiredSize, NULL, NULL);
    delete [] wideText;
    return utf8Text;
}

基本思想是使用MultiByteToWideChar()WideCharToMultiByte()函数将字符串从ANSI(多字节)转换为宽字符,然后从宽字符转换为utf-8(更多信息:{{3 }})。最好的部分是 - 我没有必要改变任何其他东西(即std::ofstreamstd::wofstream或使用任何第三方库或改变我实际使用文件流的方式(而不是将字符串转换为utf- 8这是必要的))!

可能也适用于其他语言,虽然我没有测试过。