去语言如何将ansi文本转换为utf8?

时间:2011-08-03 13:56:00

标签: utf-8 go ansi

如何在golang(go语言)中将ansi文本转换为utf8? 我尝试将ansi字符串转换为utf8字符串。

5 个答案:

答案 0 :(得分:6)

Go只有UTF-8字符串。您可以使用此处描述的转换从byte []:

将某些内容转换为UTF8字符串

http://golang.org/doc/go_spec.html#Conversions

答案 1 :(得分:4)

我写了一个对我有用的功能,也许其他人可以使用它。它从Windows-1252转换为UTF-8。我已经转换了一些Windows-1252视为字符的代码点,但Unicode认为是控制字符(http://en.wikipedia.org/wiki/Windows-1252

func fromWindows1252(str string) string {
    var arr = []byte(str)
    var buf bytes.Buffer
    var r rune

    for _, b := range(arr) {
        switch b {
        case 0x80:
            r = 0x20AC
        case 0x82:
            r = 0x201A
        case 0x83:
            r = 0x0192
        case 0x84:
            r = 0x201E
        case 0x85:
            r = 0x2026
        case 0x86:
            r = 0x2020
        case 0x87:
            r = 0x2021
        case 0x88:
            r = 0x02C6
        case 0x89:
            r = 0x2030
        case 0x8A:
            r = 0x0160
        case 0x8B:
            r = 0x2039
        case 0x8C:
            r = 0x0152
        case 0x8E:
            r = 0x017D
        case 0x91:
            r = 0x2018
        case 0x92:
            r = 0x2019
        case 0x93:
            r = 0x201C
        case 0x94:
            r = 0x201D
        case 0x95:
            r = 0x2022
        case 0x96:
            r = 0x2013
        case 0x97:
            r = 0x2014
        case 0x98:
            r = 0x02DC
        case 0x99:
            r = 0x2122
        case 0x9A:
            r = 0x0161
        case 0x9B:
            r = 0x203A
        case 0x9C:
            r = 0x0153
        case 0x9E:
            r = 0x017E
        case 0x9F:
            r = 0x0178
        default:
            r = rune(b)
        }

        buf.WriteRune(r)
    }

    return string(buf.Bytes())
}

答案 2 :(得分:4)

这是更新的方法。

package main    
import (
    "bytes"
    "fmt"
    "io/ioutil"    
    "golang.org/x/text/encoding/traditionalchinese"
    "golang.org/x/text/transform"
)    
func Decode(s []byte) ([]byte, error) {
    I := bytes.NewReader(s)
    O := transform.NewReader(I, traditionalchinese.Big5.NewDecoder())
    d, e := ioutil.ReadAll(O)
    if e != nil {
        return nil, e
    }
    return d, nil
}
func main() {
    s := []byte{0xB0, 0xAA}
    b, err := Decode(s)
    fmt.Println(string(b))
    fmt.Println(err)
}

我使用iconv-go进行此类转换,您必须知道您的ANSI代码页是什么,在我的情况下,它是'big5'。

package main
import (
    "fmt"
    //iconv "github.com/djimenez/iconv-go"
    iconv "github.com/andelf/iconv-go"
    "log"
)

func main() {
    ibuf := []byte{170,76,80,67}
    var obuf [256]byte

    // Method 1: use Convert directly
    nR, nW, err := iconv.Convert(ibuf, obuf[:], "big5", "utf-8")
    if err != nil {
        log.Fatalln(err)
    }
    log.Println(nR, ibuf)
    log.Println(obuf[:nW])
    fmt.Println(string(obuf[:nW]))

    // Method 2: build a converter at first
    cv, err := iconv.NewConverter("big5", "utf-8")
    if err != nil {
        log.Fatalln(err)
    }
    nR, nW, err = cv.Convert(ibuf, obuf[:])
    if err != nil {
        log.Fatalln(err)
    }
    log.Println(string(obuf[:nW]))
}

答案 3 :(得分:2)

如果没有自己编写转换或使用第三方软件包,则无法执行此操作。你可以尝试使用它:http://code.google.com/p/go-charset

答案 4 :(得分:2)

golang.org/x/text/encoding/charmap包具有完全针对此问题的功能

import "golang.org/x/text/encoding/charmap"

func DecodeWindows1250(enc []byte) string {
    dec := charmap.Windows1250.NewDecoder()
    out, _ := dec.Bytes(enc)
    return string(out)
}

func EncodeWindows1250(inp string) []byte {
    enc := charmap.Windows1250.NewEncoder()
    out, _ := enc.String(inp)
    return out
}

修改:undefined: ba替换enc