如何从混淆矩阵计算概率?需要分母,字符矩阵

时间:2012-05-22 19:33:17

标签: nlp machine-learning stanford-nlp opennlp confusion-matrix

This paper包含在嘈杂频道中拼写错误的混淆矩阵。它描述了如何根据条件属性纠正错误。

条件概率计算在第2页左栏。在第2页第2页的脚注4中,作者说:“字符矩阵可以很容易地复制,因此在附录中省略了。”我无法弄清楚它们如何被复制!

如何复制它们?我需要原始语料库吗?或者,作者是否意味着他们可以从论文本身的材料中重新计算出来?

1 个答案:

答案 0 :(得分:3)

查看论文,您只需要使用与您的应用程序相关的一个或一个语料库来计算它们。

在复制矩阵时,请注意它们隐含地定义了两个不同的chars矩阵:向量和n×n矩阵。对于每个字符x,向量chars包含字符x在语料库中出现的次数计数。对于每个字符序列xy,矩阵chars包含序列在语料库中出现的次数。

chars[x]代表向量中x的查找; chars[x,y]表示矩阵中序列xy的查找。请注意,chars[x] = chars[x,y]的每个值的总和超过y

请注意,他们的计数均基于1988年AP Newswire语料库(available from the LDC)。如果您不能使用他们的确切语料库,我认为使用同一类型的其他文本(即另一个新闻专线语料库)并缩放您的计数以使它们符合原始数据是不合理的。也就是说,如果给定字符的频率与它们足够相似,则不应该从一个文本到另一个文本变化太大,所以如果你有一个2200万字的新闻专线,你可以计算该文本中的字符和然后将它们加倍以接近原始计数。