使用斯坦福NLP检测语言

时间:2015-03-26 22:34:00

标签: nlp stanford-nlp

我想知道是否可以使用Stanford CoreNLP来检测句子的哪种语言?如果是这样,那些算法有多精确?

2 个答案:

答案 0 :(得分:11)

目前,Stanford COreNLP几乎无法识别语言。 '差不多' - 因为不存在很难证明。

编辑:不过,以下是间接证据:

  1. main pageCoreNLP page以及FAQ中都没有提及语言识别(尽管有 一个问题'如何在其他语言上运行CoreNLP?'),也不在CoreNLP作者的2014 paper中;
  2. 组合多个NLP库的工具 包括斯坦福CoreNLP使用另一个lib语言 识别,例如DKPro Core ASL;还other users谈论语言识别而CoreNLP没有提到这种能力
  3. CoreNLP的源文件包含Language 课程,但没有任何与语言识别相关的 - 你可以 手动检查所有84次出现的“语言”字here
  4. 尝试TIKATextCatLanguage Detection Library for Java(他们报告“53种语言的精度超过99%”)。

    一般来说,质量取决于输入文本的大小:如果它足够长(比如说,至少有几个单词而不是特别选择),那么精度可能相当不错 - 大约95%。

答案 1 :(得分:9)

Standford CoreNLP没有语言ID(至少现在还没有),请参阅http://nlp.stanford.edu/software/corenlp.shtml


语言检测/识别工具上还有更多内容。但是用一小撮盐来确定报告的精度。它通常被狭隘地评估,受以下因素限制:

  • 修正语言列表,
  • 相当长的测试句和
  • 使用相同的语言和
  • 对测试实例的培训比例偏差。

值得注意的语言ID工具包括:

来自meta-guide.com的

详尽清单,请参阅http://meta-guide.com/software-meta-guide/100-best-github-language-identification/


值得注意的语言识别相关共享任务(包括培训/测试数据)包括:


另请参阅