我正在尝试从CoreNLP库中训练一个自定义的词性标记器(使用edu.stanford.nlp.tagger.maxent.MaxentTagger类,具体而言),并且我正在努力解决这些选项的意思(我不是语言学家)什么是最有效的组合。我尝试过使用CoreNLP库的开箱即用下载附带的一些默认选项,并且还调整了一些更改,例如bidrectional等,但没有看到标签准确性的明显改进。我已阅读the ExtractorFrames JavaDoc page,但他们似乎正在使用我不太了解的速记。所以:
答案 0 :(得分:1)
Chris Manning在此Coursera video中更详细地解释了一些最常用的POS标记功能。
关于合理的功能集:这在很大程度上取决于语言。您可以查看我们在GitHub上附带标记器的各种型号的配置,如果有一种用于构建标记器的语言,那么我将使用该配置作为起点用于运行实验。