在javascript中检测字符串的unicode语言

时间:2012-08-16 08:01:20

标签: javascript string html5

我有一个包含几个单词的字符串。我想找出只包含Tamil Unicode字符的所有单词。我是javascript的新手。

使用Go,我也这样做:

            tokens := strings.Fields(stringContent, delim) // split based on delim, say space

            for _, token := range tokens { //like foreach
                r, l := utf8.DecodeRuneInString(token)
                if l != 1 {
                    if unicode.Is(unicode.Tamil, r) {
                        // Tamil word
                    }
                }
            }

我发现string.split()会在javascript中根据分隔符给出单个单词。但是,如果这个单词是UTF-8 TAMIL单词,我无法知道如何获取。有人可以帮助我在javascript中实现这个目标吗?

1 个答案:

答案 0 :(得分:10)

简单的方法是对具有unicode范围内字符的单词进行正则表达式匹配

希望这会有所帮助:http://kourge.net/projects/regexp-unicode-block

您可以使用的样本

"இந்தியா ASASAS எறத்தாழ ASSASAS குடியரசு ASWED SAASAS".match(/[\u0B80-\u0BFF]+/g);