我是EM算法的新手,研究隐马尔可夫模型。
在EM培训我的HMM期间,我对数据设置感到非常困惑。 (文字处理)
请确认我的EM用法是否合适。
首先,我用我的整个训练集计算了排放概率矩阵的统计数据。然后,我用相同的设置运行EM。 - >当时未见数据的排放概率收敛为零。
当我阅读文本,语音和语言处理时,我发现练习8.3讲述了两阶段训练方法。
8.3扩展您在练习8中构建的HMM标记器。除了标记的训练语料库之外,还可以添加使用某些未标记数据的功能。首先获得一个大的未标记的语料库。接下来,实现前后训练算法。现在从练习8中训练语料库中训练的HMM参数开始。叫这个型号M0。使用这些HMM参数运行前向 - 后向算法以标记无监督语料库。现在你有了一个新的M1型号。测试M1在某些标记数据上的性能。
在此声明之后,我从训练集中选择了一些实例(训练集的1/3)来获取初始统计数据。 然后,我使用整个训练集运行EM程序,以优化EM中的参数。
可以吗?
答案 0 :(得分:0)
练习所指的程序是一种称为自我训练的无监督学习。我们的想法是,您使用整个标记的trainign集来构建模型。然后,您收集更多未标记的数据。找到新的未标记数据要比找到新的标记数据容易得多。之后,您将使用最初训练的模型标记新数据。现在,使用自动生成的标签,训练一个新模型。