应用错误收集

（人类）文件的语言

时间：2008-11-02 18:01:13

标签： nlp classification language-detection

是否有办法（程序，库）大致知道文档的编写语言？

我有一堆混合语言的文本文档（~500K）可以在支持i18n的CMS（Drupal）中导入..

我不需要完美匹配，只需要一些猜测。

5 个答案:

答案 0 :(得分：6)

有一种非常简单的方法可以做到这一点，因为你需要识别所有不同语言的语料库数据。它被称为n-gram建模。我认为Lingua::Identify已经做到了这一点，所以这是你最好的选择，而不是实现自己的。

答案 1 :(得分：0)

似乎有一个Perl模块：Lingua::Identify

保罗。

答案 2 :(得分：0)

我想说你最好的办法是寻找关键词 - 文章，那种东西 - 这些都是你所寻找的语言所特有的。例如，“Un”将以西班牙语和法语出现，但“une”可识别为法语，而“unos”例如可识别为西班牙语。变音符号也很有用 - 你会看到西班牙语中的“ñ”和可能的葡萄牙语，法语中的“ç”和其他一些......那种东西。

编辑 - 保罗的解决方案可能是最好的;看起来它使用了我概述的方法，加上一些额外的。

答案 3 :(得分：0)

通过运行Google搜索“determine language of document”，我找到了许多可以帮助您的网站。第一页上的第三个链接最终让我在Google Code API中找到了function，这正是您所需要的。

答案 4 :(得分：0)

Google Translation API很酷，并且有一个REST界面。但我需要发送大量的大文件（是的，我可以使用摘录），即使谷歌是谷歌，我也不认为这公平。

文件也不是我的，并且我问我的客户是否可以将它们发送给第三方（即使很快或更晚，G 将获得它们;）。）。 p>

我想我会通过Perl路径......