将字符串从代码页1252转换为1250并返回

时间:2015-08-10 14:22:46

标签: delphi delphi-7

我使用Delphi 7(基于ANSI)。我需要在代码页之间转换字符串。我在网上找到了一个带有multiByteToWideChar和wideCharToMultiByte函数的解决方案。但正如我所看到的那样,它不起作用。我可以从1250转换为1252,但另一种方式不太好。 这是我的测试代码:

procedure TForm1.Button1Click(Sender: TObject);

function ANSIToUTF8( text_ : string; codePage_ : cardinal ): string;
var
  w : WideString;
  sizeMB, sizeWC : integer;
begin
  if ( codePage_ <> CONST_codepage_UTF8 ) then
  begin
    // ANSI_XXXX to UTF16
    sizeMB := length( text_ );
    sizeWC := multiByteToWideChar( codePage_, 0, PAnsiChar( text_ ), sizeMB, nil, 0 );
    setLength( w, sizeWC );
    multiByteToWideChar( codePage_, 0, PAnsiChar( text_ ), sizeMB, PWideChar( w ), sizeWC );

    // UTF16 to UTF8
    sizeMB := wideCharToMultiByte( CONST_codepage_UTF8, 0, PWideChar( w ), sizeWC, nil, 0, nil, nil );
    setLength( result, sizeMB );
    wideCharToMultiByte( CONST_codepage_UTF8, 0, PWideChar( w ), sizeWC, PAnsiChar( Result ), sizeMB, nil, nil );
  end else
    result := text_;
end;

function UTF8ToANSI( text_ : string; codePage_ : cardinal ): string;
var
  w : WideString;
  sizeMB, sizeWC : integer;
begin
  if ( codePage_ <> CONST_codepage_UTF8 ) then
  begin
    // UTF8 to UTF16
    sizeMB := length( text_ );
    sizeWC := multiByteToWideChar( CONST_codepage_UTF8, 0, PAnsiChar( text_ ), sizeMB, nil, 0 );
    setLength( w, sizeWC );
    multiByteToWideChar( CONST_codepage_UTF8, 0, PAnsiChar( text_ ), sizeMB, PWideChar( w ), sizeWC );

    // UTF16 to ANSI_XXXX
    sizeMB := wideCharToMultiByte( codePage_, 0, PWideChar( w ), sizeWC, nil, 0, nil, nil );
    setLength( result, sizeMB );
    wideCharToMultiByte( codePage_, 0, PWideChar( w ), sizeWC, PAnsiChar( Result ), sizeMB, nil, nil );
  end else
    result := text_;
end;

  procedure testString( s_ : string; icp_ : cardinal );
  var
    sutf : string;
    s1250, s1252 : string;
    pc : pchar;

    function strToHex( s_ : string; ocp_ : cardinal ) : string;
    var
      i : integer;
    begin
      result := '';
      for i := 1 to length( s_ ) do
      begin
        if ( i > 1 ) then
          result := result + ', ';
        result := result + TStringUtility.byteToHexaDecimalStr( ord( s_[i] ) );
      end;
    end;

    procedure logInput;
    var
      s : string;
    begin
      s := 'Input (' + intToStr( icp_ ) + '): ' + strToHex( s_, icp_ );
      listbox1.items.add( s );
    end;

    procedure logOutput( ocp_ : cardinal );
    var
      s : string;
    begin
      s_ := utf8toansi( sutf, ocp_ );
      s := 'Output (' + intToStr( ocp_ ) + '): ' + strToHex( s_, ocp_ );
      listbox1.items.add( s );
    end;

  begin
    logInput;
    sutf := ansitoutf8( s_, icp_ );
    logOutput( 1250 );
    logOutput( 1252 );
    listbox1.items.add( '' );
  end;

begin
  testString( #$f5 + #$fa + #$fb, 1250 ); // õúû in 1250
  testString( #$6f + #$fa + #$75, 1252 ); // õúû in 1252
end;

记录的结果不是经过验证的结果。它显示api调用将字符串从1250转换为1252但没有1252到1250.我将默认代码页更改为1252,结果相同。

Input (1250): $f5, $fa, $fb
Output (1250): $f5, $fa, $fb
Output (1252): $6f, $fa, $75

Input (1252): $6f, $fa, $75
Output (1250): $6f, $fa, $75
Output (1252): $6f, $fa, $75

1 个答案:

答案 0 :(得分:3)

您尝试的是不可能的。 1250年有些字符在1252年没有出现,反之亦然。

考虑问题中的示例字符。让我们从1250年的$f5开始。那就是ő。现在,该字符在1252中不存在,因此系统无法按照您的要求执行操作。相反,它尽力而为,并在1252年返回$6f o

然后当你从1252转换回1250时,没有问题,因为o在ASCII范围内并且可以正确转换。但是当然系统无法回到ő,当你去1252时,这些信息就丢失了。

如果您需要处理1250或1252中的文本,那么显而易见的解决方案是使用Unicode。