我想计算字符串中出现字符的概率。例如,给定一个字符串“test”,我想获得P(测试)。
P(test) = p(t) * p(e|t) * p (s|te) * p(t|es)
我已经计算了超过100k弦的各种二元频率并计算了它们发生的概率。我的问题是,通过将字符串中的n-gram的概率相乘,我会得到一个准确的答案,或者找到相同的答案会有更好的答案吗?
非常感谢任何帮助。
答案 0 :(得分:1)
使用bi-gram,您的答案将与second-order Markov chain一样准确。结果对于这样一个简单的模型来说非常好,但是当然你可以用更具表现力的模型做得更好。例如,在语言建模中,经常使用Hidden Markov Models (HMMs)。