如果我在java中有一个字符串,我该如何确定它属于哪种语言? Unicode规范是否允许我们这样做?
答案 0 :(得分:6)
Unicode字符串中没有元数据指定字符串所在的语言,如果字符串甚至是单词或短语。
根据字符串中包含的字符,您可以猜出正在使用的语言。例如,Unicode范围30A0-30FF表示日语片假名字符。因此,如果您的大部分字符串都包含该范围内的字符,那么您可以做出有根据的猜测,即它是日语。但这根本不可靠。例如,如果它只是随机的片假名字符会怎么样?
为了可靠的语言检测,我会放弃使用Unicode作为语言检测基础的所有想法,并专注于语言识别算法。