我需要一个词性标注器,它不仅返回给定句子的最佳标签序列,而且返回n个最佳标签序列。因此,对于像箭头一样的“时间飞逝”,它可以返回例如NN VBZ IN DT NN和NN NNS VBP DT NN,按其概率排序。我需要使用我自己的标签集和句子示例来训练标记器,我想要一个允许设计句子的不同特征的标记器。如果其中一个nltk标记器具有此功能,那就太棒了,但是我可以与我的Python代码接口的任何标记器都可以。提前感谢任何建议。
答案 0 :(得分:1)
我建议您查看spaCy。从我所看到的情况来看,它默认情况下不允许您返回top-n标记,但它支持creating custom pipeline components。
在Github上还有一个issue,其中讨论了这一点,并且有一些关于如何相对快速地实现它的建议。