用于pos标记的Baum-Welch算法

时间:2011-03-07 07:52:44

标签: nlp machine-learning hidden-markov-models pos-tagger

大家。 我正在使用Baum-Welch算法训练一个pos标记器,它完全处于无人监督的状态。 问题出现了: 当我得到标签结果时,我只得到一系列数字。 我无法弄清楚哪个标签代表VV,NN,DT。 我该如何解决这个问题?

1 个答案:

答案 0 :(得分:4)

一般来说,没有办法做到这一点。 Baum-Welch会发现具有类似分布的单词用法类,但没有特别的理由认为这些类将以任何直接的方式映射到任何特定语言理论所提出的类别。因此,无监督的POS标记符主要用于您关心单词或短语的等价类但不关心所分配的特定标记的应用程序。

如果你确实需要人类可读的标签(例如,在开发过程中,要评估你得到的结果是否有点可信),我会用几十个句子手工标记。然后,您可以将B-W衍生的标记符应用于标记的小型语料库,以引导类号和POS标签之间的映射。