语言探测器

时间:2012-02-06 16:17:02

标签: java nlp

我想要一个java代码,它读取文档中的文本并说它是用哪种语言(英语,西班牙语......)。文件的格式并不重要。我想输出例如:“这个文件是西班牙语”。请以这种方式指导我并给我一个示例代码。

3 个答案:

答案 0 :(得分:3)

答案 1 :(得分:1)

标准方法是为候选语言构建n-gram模型,然后为目标文档构建类似的模型,并使用简单的编辑距离计算与参考模型进行比较。 Gertjan van Noord的网站http://www.let.rug.nl/vannoord/TextCat/competitors.html包含您可以使用的几个图书馆的链接。

答案 2 :(得分:0)

language-detection库在Java中使用非常简单(参见示例代码)并且非常强大。从各种各样的家庭中检测至少53种语言。