认识短文的语言?

时间:2010-03-22 17:49:31

标签: python nlp

我有一份文章清单,每篇文章都有自己的标题和说明。不幸的是,从我使用的来源来看,没有办法知道他们写的是什么语言。

此外,该文本并非完全用1种语言书写;几乎总是有英文单词。

我估计我需要在我的机器上存储字典数据库,但感觉有点不切实际。你有什么建议我做的?

6 个答案:

答案 0 :(得分:15)

我会使用guess-language项目。

修改:现在在Bitbucket

答案 1 :(得分:4)

答案 2 :(得分:4)

如果您不介意使用网络服务为您工作,可以试用Google AJAX Language API

答案 3 :(得分:2)

一般来说,你正在考虑进行nGram识别。由于这是一个python问题,你可以看一下http://github.com/koblas/ngramj-python这是java ngram库的纯python端口(另一个开源项目)。

文档缺乏,但它具有非常好的准确性。

答案 4 :(得分:2)

我知道这是一个老问题,但如果人们在研究此任务的选项时遇到此问题,则值得一提的是另一个工具是langid

答案 5 :(得分:1)

如果新建议也不实用,我会尝试这样的事情:

在许多语言中,有一些关键词在很多句子中,并且通常在其他语言中找不到。

示例:“The”in English,“der”,“die”,“das”in German,....

找到这样的词并尝试在你的文本中找到它们。它最后可能有点模糊 - 例如,当你找到“the”和“der”时 - 它可能是一个包含一些英语句子的德语文本。至少从你的目标语言中得到足够的单词,你可以达到很高的命中率。