应用错误收集

时间：2010-03-22 17:49:31

标签： python nlp

我有一份文章清单，每篇文章都有自己的标题和说明。不幸的是，从我使用的来源来看，没有办法知道他们写的是什么语言。

此外，该文本并非完全用1种语言书写;几乎总是有英文单词。

我估计我需要在我的机器上存储字典数据库，但感觉有点不切实际。你有什么建议我做的？

答案 0 :(得分：15)

我会使用guess-language项目。

修改：现在在Bitbucket

答案 1 :(得分：4)

答案 2 :(得分：4)

如果您不介意使用网络服务为您工作，可以试用Google AJAX Language API。

答案 3 :(得分：2)

一般来说，你正在考虑进行nGram识别。由于这是一个python问题，你可以看一下http://github.com/koblas/ngramj-python这是java ngram库的纯python端口（另一个开源项目）。

文档缺乏，但它具有非常好的准确性。

答案 4 :(得分：2)

我知道这是一个老问题，但如果人们在研究此任务的选项时遇到此问题，则值得一提的是另一个工具是langid。

答案 5 :(得分：1)

如果新建议也不实用，我会尝试这样的事情：

在许多语言中，有一些关键词在很多句子中，并且通常在其他语言中找不到。

示例：“The”in English，“der”，“die”，“das”in German，....

找到这样的词并尝试在你的文本中找到它们。它最后可能有点模糊 - 例如，当你找到“the”和“der”时 - 它可能是一个包含一些英语句子的德语文本。至少从你的目标语言中得到足够的单词，你可以达到很高的命中率。