我有一个包含几个单词的字符串。我想找出只包含Tamil Unicode字符的所有单词。我是javascript的新手。
使用Go,我也这样做:
tokens := strings.Fields(stringContent, delim) // split based on delim, say space
for _, token := range tokens { //like foreach
r, l := utf8.DecodeRuneInString(token)
if l != 1 {
if unicode.Is(unicode.Tamil, r) {
// Tamil word
}
}
}
我发现string.split()会在javascript中根据分隔符给出单个单词。但是,如果这个单词是UTF-8 TAMIL单词,我无法知道如何获取。有人可以帮助我在javascript中实现这个目标吗?
答案 0 :(得分:10)
简单的方法是对具有unicode范围内字符的单词进行正则表达式匹配
希望这会有所帮助:http://kourge.net/projects/regexp-unicode-block
您可以使用的样本
"இந்தியா ASASAS எறத்தாழ ASSASAS குடியரசு ASWED SAASAS".match(/[\u0B80-\u0BFF]+/g);