我想知道是否可以使用Stanford CoreNLP
来检测句子的哪种语言?如果是这样,那些算法有多精确?
答案 0 :(得分:11)
目前,Stanford COreNLP几乎无法识别语言。 '差不多' - 因为不存在很难证明。
编辑:不过,以下是间接证据:
Language
课程,但没有任何与语言识别相关的 - 你可以
手动检查所有84次出现的“语言”字here 尝试TIKA,TextCat或Language Detection Library for Java(他们报告“53种语言的精度超过99%”)。
一般来说,质量取决于输入文本的大小:如果它足够长(比如说,至少有几个单词而不是特别选择),那么精度可能相当不错 - 大约95%。
答案 1 :(得分:9)
Standford CoreNLP没有语言ID(至少现在还没有),请参阅http://nlp.stanford.edu/software/corenlp.shtml
语言检测/识别工具上还有更多内容。但是用一小撮盐来确定报告的精度。它通常被狭隘地评估,受以下因素限制:
值得注意的语言ID工具包括:
详尽清单,请参阅http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
值得注意的语言识别相关共享任务(包括培训/测试数据)包括:
另请参阅: