CoreNLP MaxentTagger架构选项 - 意义和有效性

时间:2015-02-24 18:39:43

标签: java stanford-nlp pos-tagger

我正在尝试从CoreNLP库中训练一个自定义的词性标记器(使用edu.stanford.nlp.tagger.maxent.MaxentTagger类,具体而言),并且我正在努力解决这些选项的意思(我不是语言学家)什么是最有效的组合。我尝试过使用CoreNLP库的开箱即用下载附带的一些默认选项,并且还调整了一些更改,例如bidrectional等,但没有看到标签准确性的明显改进。我已阅读the ExtractorFrames JavaDoc page,但他们似乎正在使用我不太了解的速记。所以:

  • 不同的选项组真正是什么意思?
  • 是否有从实践中有意义的组合?如果某些组合没有意义,我想避免花很多时间尝试随机组合。

1 个答案:

答案 0 :(得分:1)

Chris Manning在此Coursera video中更详细地解释了一些最常用的POS标记功能。

关于合理的功能集:这在很大程度上取决于语言。您可以查看我们在GitHub上附带标记器的各种型号的配置,如果有一种用于构建标记器的语言,那么我将使用该配置作为起点用于运行实验。