我有一份文章清单,每篇文章都有自己的标题和说明。不幸的是,从我使用的来源来看,没有办法知道他们写的是什么语言。
此外,该文本并非完全用1种语言书写;几乎总是有英文单词。
我估计我需要在我的机器上存储字典数据库,但感觉有点不切实际。你有什么建议我做的?
答案 0 :(得分:15)
我会使用guess-language项目。
修改:现在在Bitbucket
答案 1 :(得分:4)
答案 2 :(得分:4)
如果您不介意使用网络服务为您工作,可以试用Google AJAX Language API。
答案 3 :(得分:2)
一般来说,你正在考虑进行nGram识别。由于这是一个python问题,你可以看一下http://github.com/koblas/ngramj-python这是java ngram库的纯python端口(另一个开源项目)。
文档缺乏,但它具有非常好的准确性。
答案 4 :(得分:2)
我知道这是一个老问题,但如果人们在研究此任务的选项时遇到此问题,则值得一提的是另一个工具是langid。
答案 5 :(得分:1)
如果新建议也不实用,我会尝试这样的事情:
在许多语言中,有一些关键词在很多句子中,并且通常在其他语言中找不到。
示例:“The”in English,“der”,“die”,“das”in German,....
找到这样的词并尝试在你的文本中找到它们。它最后可能有点模糊 - 例如,当你找到“the”和“der”时 - 它可能是一个包含一些英语句子的德语文本。至少从你的目标语言中得到足够的单词,你可以达到很高的命中率。