应用错误收集

时间：2009-12-16 19:01:59

标签： artificial-intelligence machine-learning nlp linguistics markov-models

对于语言学课程，我们使用隐马尔可夫模型实现了词性（POS）标记，其中隐藏变量是词性。我们对一些标记数据进行了系统训练，然后对其进行了测试，并将结果与黄金数据进行了比较。

是否有可能在没有标记训练集的情况下训练HMM？

答案 0 :(得分：6)

从理论上讲，你可以做到这一点。在这种情况下，您将使用Baum-Welch算法。它在Rabiner's HMM Tutorial中得到了很好的描述。

然而，将HMM应用于词性，您使用标准表格得到的错误将不会令人满意。它是期望最大化的一种形式，它只收敛于局部最大值。 iirc，基于规则的方法击败了HMM。

我相信python的自然语言工具包NLTK具有针对该用途的HMM实现。

答案 1 :(得分：1)

NLP是在几年前，但我相信没有标记HMM可以帮助确定n-gram的符号发射/状态转移概率（即“世界”在“你好”之后发生的几率），但不是零件的词性。它需要标记的语料库来了解POS如何相互关联。

如果我离开了，请在评论中告诉我！