我目前正致力于翻译包含多种语言的段落。
现在我已经意识到谷歌翻译API,如果我们让我们说:
hello bye hola
它会将语言检测为英语,如果是:
hello hola adios
然后它将检测西班牙语。
基本上,无论哪个语言在句子/段落中具有最高字数,它都会检测到该语言。现在有趣的是,在谷歌翻译中他们实际上有这个功能。
有没有办法解决这个问题,只能检测外语而不是英文?
答案 0 :(得分:1)
不,使用Google Translate API无法做到这一点,因为在公共API中没有公开的机制。
如果您使用备用语言检测库,则可以定义一个阈值,用于删除代码较少的语言的内容。这样,如果整个样本中文本的比例低于30%,则可以删除英文内容。
例如,请参阅RemoveMinorityScriptsTextFilterTest
项目中的optimaize/language-detector课程。