如何检测/处理多种unicode方式来对字母上的重音进行编码

时间:2018-08-19 03:48:29

标签: go unicode diacritics

信不信由你,看来这个单词的iota(最后一个字母)已经用两种不同的unicode编码方式:

  • εἰμί(带有TONOS的U + 03AF的希腊小写字母IOTA)
  • εἰμί(带有OXIA的U + 1F77的希腊小写字母IOTA)

我假设有时字母被编码为单个字母,而在其他时候则被编码为字母+重音。

是否存在某种地图或数据库,可以让我们在可以导入我的代码的一个或另一个之间进行转换。

1 个答案:

答案 0 :(得分:4)

  

信不信由你

让我们离开幻想的世界。

Duplicated vowel+oxia characters in Greek Unicode range

The Unicode Consortium

Unicode: Frequently Asked Questions: Normalization

The Go Blog: Text normalization in Go


例如,

package main

import (
    "bytes"
    "fmt"

    "golang.org/x/text/unicode/norm"
)

func Equal(a, b string) bool {
    var ia, ib norm.Iter
    ia.InitString(norm.NFKD, a)
    ib.InitString(norm.NFKD, b)
    for !ia.Done() && !ib.Done() {
        if !bytes.Equal(ia.Next(), ib.Next()) {
            return false
        }
    }
    return ia.Done() && ib.Done()
}

func main() {
    a := "εἰμ\u03AF"
    b := "εἰμ\u1F77"
    fmt.Println(a)
    fmt.Println(b)
    fmt.Println(a == b)
    fmt.Println(Equal(a, b))
}

输出:

εἰμί
εἰμί
false
true