对于语言学课程,我们使用隐马尔可夫模型实现了词性(POS)标记,其中隐藏变量是词性。我们对一些标记数据进行了系统训练,然后对其进行了测试,并将结果与黄金数据进行了比较。
是否有可能在没有标记训练集的情况下训练HMM?
答案 0 :(得分:6)
从理论上讲,你可以做到这一点。在这种情况下,您将使用Baum-Welch算法。它在Rabiner's HMM Tutorial中得到了很好的描述。
然而,将HMM应用于词性,您使用标准表格得到的错误将不会令人满意。它是期望最大化的一种形式,它只收敛于局部最大值。 iirc,基于规则的方法击败了HMM。
我相信python的自然语言工具包NLTK具有针对该用途的HMM实现。
答案 1 :(得分:1)
NLP是在几年前,但我相信没有标记HMM可以帮助确定n-gram的符号发射/状态转移概率(即“世界”在“你好”之后发生的几率),但不是零件的词性。它需要标记的语料库来了解POS如何相互关联。
如果我离开了,请在评论中告诉我!