用谷歌翻译错误的语言检测(多种语言)

时间:2016-02-02 14:03:15

标签: google-translate language-detection google-language-api

我目前正致力于翻译包含多种语言的段落。

现在我已经意识到谷歌翻译API,如果我们让我们说: hello bye hola 它会将语言检测为英语,如果是: hello hola adios然后它将检测西班牙语。

基本上,无论哪个语言在句子/段落中具有最高字数,它都会检测到该语言。现在有趣的是,在谷歌翻译中他们实际上有这个功能。

有没有办法解决这个问题,只能检测外语而不是英文?

1 个答案:

答案 0 :(得分:1)

不,使用Google Translate API无法做到这一点,因为在公共API中没有公开的机制。

如果您使用备用语言检测库,则可以定义一个阈值,用于删除代码较少的语言的内容。这样,如果整个样本中文本的比例低于30%,则可以删除英文内容。

例如,请参阅RemoveMinorityScriptsTextFilterTest项目中的optimaize/language-detector课程。