哪里可以找到自然语言处理的维特比算法转换值?

时间:2012-04-13 04:02:48

标签: algorithm dataset probability viterbi

我刚观看了一个视频,他们使用维特比算法来确定句子中的某些单词是否是名词/动词/ adj等,它们使用过渡和发射概率,例如“时间”一词的概率用作动词的是已知(发射)和名词导致动词的概率(过渡)。

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu(视频)

如何为此用例找到转换和发射概率的良好数据集?

或者只是显示所有概率的单个示例,我想在演示中使用实际数字。

1 个答案:

答案 0 :(得分:0)

通常,隐藏马尔可夫模型(HMM)的实现不仅可以执行用于标记的维特比算法,还可以用于训练模型的算法(例如Baum-韦尔奇算法)。然后,获得模型的方法(即过渡和发射概率集)是在合适的训练语料库(例如PennTreebank)上运行训练算法

我不知道有任何免费提供的基于HMM的POS标签器实现,它带有一个可以轻松检查的预训练模型。然而,在许多方面类似于HMM的方法是条件随机场(CRF)。在日本东北大学创建的CRFTagger似乎带有预先训练的英语模型(下载和解包后参见文件model/model.txt)。该文件是人类可读的,但要了解格式的详细信息,您可能需要联系作者。