我想用HMM(前向后向模型)进行蛋白质二级结构预测。
基本上,使用三态模型:状态= {H =α螺旋,B =β折叠,C =线圈}
每个州的发射概率pmf为1乘20(对于20个氨基酸)。
在前向后向模型上使用序列的“训练集”后,期望最大化收敛于最佳转换矩阵(三个状态之间为3乘3),以及每个状态的发射概率pmf。
是否有人知道序列的数据集(最好是非常小的),其中确定了转移矩阵和发射概率的“正确”值。我想在Excel中使用该数据集来应用前向后向算法并建立我的信心来确定我是否可以得到相同的结果。
然后转向比Excel更原始的东西:o)
答案 0 :(得分:0)
执行此操作的最佳方法可能是根据您决定的分布生成自己的模拟数据。然后运行程序以查看参数估计是否收敛于已知参数。
在您的情况下,这将涉及编写马尔可夫链,该状态链以一些已知且任意的概率从状态变为状态(例如,P(螺旋到链)= 0.001)然后以概率发出氨基酸(例如,P(蛋氨酸)= 0.11)。对于每个步骤,打印出状态和发射。然后,您可以观察您的后验概率接近每个站点的状态。
你可以根据需要随意制作这些,因为当你运行你的HMM时,你应该收集正确的发行版。
祝你好运!