我使用Delphi 7(基于ANSI)。我需要在代码页之间转换字符串。我在网上找到了一个带有multiByteToWideChar和wideCharToMultiByte函数的解决方案。但正如我所看到的那样,它不起作用。我可以从1250转换为1252,但另一种方式不太好。 这是我的测试代码:
procedure TForm1.Button1Click(Sender: TObject);
function ANSIToUTF8( text_ : string; codePage_ : cardinal ): string;
var
w : WideString;
sizeMB, sizeWC : integer;
begin
if ( codePage_ <> CONST_codepage_UTF8 ) then
begin
// ANSI_XXXX to UTF16
sizeMB := length( text_ );
sizeWC := multiByteToWideChar( codePage_, 0, PAnsiChar( text_ ), sizeMB, nil, 0 );
setLength( w, sizeWC );
multiByteToWideChar( codePage_, 0, PAnsiChar( text_ ), sizeMB, PWideChar( w ), sizeWC );
// UTF16 to UTF8
sizeMB := wideCharToMultiByte( CONST_codepage_UTF8, 0, PWideChar( w ), sizeWC, nil, 0, nil, nil );
setLength( result, sizeMB );
wideCharToMultiByte( CONST_codepage_UTF8, 0, PWideChar( w ), sizeWC, PAnsiChar( Result ), sizeMB, nil, nil );
end else
result := text_;
end;
function UTF8ToANSI( text_ : string; codePage_ : cardinal ): string;
var
w : WideString;
sizeMB, sizeWC : integer;
begin
if ( codePage_ <> CONST_codepage_UTF8 ) then
begin
// UTF8 to UTF16
sizeMB := length( text_ );
sizeWC := multiByteToWideChar( CONST_codepage_UTF8, 0, PAnsiChar( text_ ), sizeMB, nil, 0 );
setLength( w, sizeWC );
multiByteToWideChar( CONST_codepage_UTF8, 0, PAnsiChar( text_ ), sizeMB, PWideChar( w ), sizeWC );
// UTF16 to ANSI_XXXX
sizeMB := wideCharToMultiByte( codePage_, 0, PWideChar( w ), sizeWC, nil, 0, nil, nil );
setLength( result, sizeMB );
wideCharToMultiByte( codePage_, 0, PWideChar( w ), sizeWC, PAnsiChar( Result ), sizeMB, nil, nil );
end else
result := text_;
end;
procedure testString( s_ : string; icp_ : cardinal );
var
sutf : string;
s1250, s1252 : string;
pc : pchar;
function strToHex( s_ : string; ocp_ : cardinal ) : string;
var
i : integer;
begin
result := '';
for i := 1 to length( s_ ) do
begin
if ( i > 1 ) then
result := result + ', ';
result := result + TStringUtility.byteToHexaDecimalStr( ord( s_[i] ) );
end;
end;
procedure logInput;
var
s : string;
begin
s := 'Input (' + intToStr( icp_ ) + '): ' + strToHex( s_, icp_ );
listbox1.items.add( s );
end;
procedure logOutput( ocp_ : cardinal );
var
s : string;
begin
s_ := utf8toansi( sutf, ocp_ );
s := 'Output (' + intToStr( ocp_ ) + '): ' + strToHex( s_, ocp_ );
listbox1.items.add( s );
end;
begin
logInput;
sutf := ansitoutf8( s_, icp_ );
logOutput( 1250 );
logOutput( 1252 );
listbox1.items.add( '' );
end;
begin
testString( #$f5 + #$fa + #$fb, 1250 ); // õúû in 1250
testString( #$6f + #$fa + #$75, 1252 ); // õúû in 1252
end;
记录的结果不是经过验证的结果。它显示api调用将字符串从1250转换为1252但没有1252到1250.我将默认代码页更改为1252,结果相同。
Input (1250): $f5, $fa, $fb
Output (1250): $f5, $fa, $fb
Output (1252): $6f, $fa, $75
Input (1252): $6f, $fa, $75
Output (1250): $6f, $fa, $75
Output (1252): $6f, $fa, $75
答案 0 :(得分:3)
您尝试的是不可能的。 1250年有些字符在1252年没有出现,反之亦然。
考虑问题中的示例字符。让我们从1250年的$f5
开始。那就是ő
。现在,该字符在1252中不存在,因此系统无法按照您的要求执行操作。相反,它尽力而为,并在1252年返回$6f
o
。
然后当你从1252转换回1250时,没有问题,因为o
在ASCII范围内并且可以正确转换。但是当然系统无法回到ő
,当你去1252时,这些信息就丢失了。
如果您需要处理1250或1252中的文本,那么显而易见的解决方案是使用Unicode。