我做了一些谷歌搜索,但找不到一个明确的答案(也许没有使用正确的术语?)
无论如何,我有一些ANSI格式的文本文件(WCP-1252),我想在C ++程序中处理它的字符,但问题是我不知道如何存储对应于十进制的2字节字符代码128到255.但是,为了确定,我尝试了以下代码:
ifstream infile("textfile.txt");
char c;
infile>>c; //also tried infile.get(c);
cout<<c;
不出所料,1字节的char无法在0x7F之后存储来自扩展集的任何符号(我认为它只显示了对应于第一个字节值的ASCII符号,并丢弃了第二个或反之的)。
答案 0 :(得分:0)
WCP-1252以8位表示,但有些字符不是ASCII的一部分。我建议你写一个从WCP-1252到wchar_t的转换表。通过char读取char并转换为wchar_t。 你可以写一张地图&lt; uint8_t,wchar_t&gt;。例如:
wchar_t WCP1252Towc( char ch )
{
static map< char, wchar_t > table
{
{0x30, L'0' },
{0x31, L'1' },
// ..
{0x39, L'9'},
{0x40, L'A'},
// ...
{0x5A, L'Z'},
{0x61, L'a'},
// ...
{0x7A, L'z'},
// ...
};
return table[ ch ];
};
wstring WCP1252sTowcs( string str )
{
const auto len = str.size();
wstring res( len, L'\0' );
for( size_t i = 0; i < len; ++i )
res[ i ] = WCP1252Towc( str[ i ] );
return res;
}
ifstream infile("textfile.txt");
string line; getline( infile, line );
auto unicode = WCP1252sTowcs( line );
wcout << unicode;