训练没有标记语料库数据的隐马尔可夫模型

时间:2009-12-16 19:01:59

标签: artificial-intelligence machine-learning nlp linguistics markov-models

对于语言学课程,我们使用隐马尔可夫模型实现了词性(POS)标记,其中隐藏变量是词性。我们对一些标记数据进行了系统训练,然后对其进行了测试,并将结果与​​黄金数据进行了比较。

是否有可能在没有标记训练集的情况下训练HMM?

2 个答案:

答案 0 :(得分:6)

从理论上讲,你可以做到这一点。在这种情况下,您将使用Baum-Welch算法。它在Rabiner's HMM Tutorial中得到了很好的描述。

然而,将HMM应用于词性,您使用标准表格得到的错误将不会令人满意。它是期望最大化的一种形式,它只收敛于局部最大值。 iirc,基于规则的方法击败了HMM。

我相信python的自然语言工具包NLTK具有针对该用途的HMM实现。

答案 1 :(得分:1)

NLP是在几年前,但我相信没有标记HMM可以帮助确定n-gram的符号发射/状态转移概率(即“世界”在“你好”之后发生的几率),但不是零件的词性。它需要标记的语料库来了解POS如何相互关联。

如果我离开了,请在评论中告诉我!