要求是我想确定用PDF或Doc编写的文本是英语还是非英语。如果我得到一个单词(turiskh,法语,阿拉伯语等)必须避免整个documnet
紧急plz给我这个功能的示例代码
答案 0 :(得分:2)
查看Google翻译API,只有免费服务谁能为您做到我所知道的。否则我只能看到拥有自己的字典等的解决方案。但那是一个不同的故事
答案 1 :(得分:1)
我猜你可以使用LangId。但是有一些限制:
要在实时网站或服务中使用我们的API,我们建议您使用以下表单申请免费的API密钥。 API密钥扩展了您的开发可能性,允许您每小时执行1,000个请求(每月约720,000个请求)。
我不认为这会解决你的“单字”问题。我相信如果文本有6个单词的英语和4个单词的另一种语言,它会将文本视为英语,因为该语言主要用于文件。我自己没有看过API,所以可能会有一些解决方案。
希望它对您有用。
答案 2 :(得分:0)
Google的Translate API的检测功能可能对您有所帮助:
http://code.google.com/apis/language/translate/v2/getting_started.html#language_detect
答案 3 :(得分:0)
对于单个单词,这是不可能的。
“是”一个英文单词?嗯,是的,但这也是丹麦语(意思是茶)。 Schadenfreude这个词是否表示非英文文本?不一定,这一切都取决于具体情况。
添加到支持语言确定的API列表中,Bing API会调用一个字符串数组的语言。
http://msdn.microsoft.com/en-us/library/ff512412.aspx
希望这有所帮助。