下一个生成的字符序列的概率

时间:2016-08-12 20:09:58

标签: nlp recurrent-neural-network lstm

我是语言处理的新手,对不起,如果这可能看起来是一个非常基本的问题。

给出训练序列,例如:" aaabbcddecbbaaaaabbabbbabccddbbcdaaaaaa" (实际序列要长得多),我可以使用LSTM等递归神经网络来学习序列中的模式和依赖关系,以生成下一个字符(单个字符或多个字符)。例如,喂食样品序列" aaabb"将产生" c"。值得一提的是,我的字母表只包含6个有序字符{a,b,c,d,e,f}

我的问题是:如何计算下一个字符的特定组合的概率?例如,给定一个序列" aabcdcbbaa"什么是获得" cc" ?

非常感谢提前!

UPD

在写这个问题时,我意识到下一个字符组合的概率可能被计算为一个"张量产品"单个字符。我的意思是:给定一个测试样本,LSTM输出一个矢量(通过softmax函数),每个字符的概率,然后将这些概率转换为单个字符(最可能的结果)。例如:序列" aabcdcbbaa"将生成6-dim向量 p1 =(0.1,0.07,0.23,0.15,0.31,0.14),其对应于字符(a,b,c,d,e,f)。然后通过使用这些字符中的每一个,我们可以计算下一个(第二个)字符 p2 的概率。然后通过乘以这两个概率向量p1Xp2,我们可以计算出获得两个字符的联合概率:aa,ab,ac,ad,....

我说错了吗?

0 个答案:

没有答案