非拉丁字母语言中的真实用户生成文本通常不是规范形式,而是translit,shlyokavitsa,arabizi,拼音等。语言检测软件开始处理它smartly,但通常是doesn't work,尽管从技术上来说它很容易被合并。
是否有语言检测系统能够很好地处理这些非正式的拉丁语? (理想情况下是Python库,但任何语言或服务都会很有趣。)
Yandex,Microsoft和顶级Python lang id libs,如langid,在这方面没有任何内容。我知道两个中途工作,都来自谷歌:
- CLD,part of Chrome
- the Google Translate API
除了仅识别几种顶级语言的translit之外,它们并不是出于各种原因(准确性,性能,价格......)的理想选择。
这是印地语,波斯语,中文,阿拉伯语和俄语等主要语言的主要问题,也是所有其他语言,不是用拉丁字母书写的,而是通常在线拉丁化(罗马化)。