我很抱歉这个复杂的问题,但是,我会尽力解释自己。
这基本上是一个隐马尔可夫模型问题。我有两列数据。这两列中的数据彼此独立,但是,它们一起表示可以进行字符编码的特定移动。我通过在column1和column2条目上添加条件来在第3列中指定一个字符。注意:字符是有限的(~10-15)。
例如: -
if (column1(i)>0.5) && (column2(i)<15)
column3(i)='D';
我最终得到了一个像这样的字符串
AAAAADDDDDCCCCCFFFFAAAACCCCCFFFFFFDDD
因此,每个角色都会重复但不是长度不变(例如,第一次A出现5次,而第二次出现A只出现4次)。
现在,让我们取A的第一个块(AAAAA),每个A包含一对有序的column1和column2值。现在,与A的第二个块(AAAA)进行比较,column1和column2的值应该与第一个块的值类似。通常,每列中的值将在整个块中增加或减少或保持不变。并且两个块中的列的值应该相似。例如,column1在5个不相等的样本中从-1变为-5,但在第二个chunk中,它以4个不等的步长从-1.2变为-5.1。
我想要的是对每一组重复字符的(对于A,然后是D,然后是C,然后是F,然后是A),对第1列和第2列值(独立地)的概率分布拟合。
最终目标如下: - 给定第1列,第2列,第3列中的n个元素,我想预测第3列中的(n + 1)元素是什么,重复自身的次数(概率为70%)重复4次,20%的几率重复5次)。此外,column1和column2的概率分布对于预测字符是什么。
如果我没有很好地解释,请随时提问。