应用错误收集

CoreNLP MaxentTagger架构选项 - 意义和有效性

时间：2015-02-24 18:39:43

标签： java stanford-nlp pos-tagger

我正在尝试从CoreNLP库中训练一个自定义的词性标记器（使用edu.stanford.nlp.tagger.maxent.MaxentTagger类，具体而言），并且我正在努力解决这些选项的意思（我不是语言学家）什么是最有效的组合。我尝试过使用CoreNLP库的开箱即用下载附带的一些默认选项，并且还调整了一些更改，例如bidrectional等，但没有看到标签准确性的明显改进。我已阅读the ExtractorFrames JavaDoc page，但他们似乎正在使用我不太了解的速记。所以：

不同的选项组真正是什么意思？
是否有从实践中有意义的组合？如果某些组合没有意义，我想避免花很多时间尝试随机组合。

1 个答案:

答案 0 :(得分：1)

Chris Manning在此Coursera video中更详细地解释了一些最常用的POS标记功能。

关于合理的功能集：这在很大程度上取决于语言。您可以查看我们在GitHub上附带标记器的各种型号的配置，如果有一种用于构建标记器的语言，那么我将使用该配置作为起点用于运行实验。