应用错误收集

查看论文，您只需要使用与您的应用程序相关的一个或一个语料库来计算它们。

在复制矩阵时，请注意它们隐含地定义了两个不同的chars矩阵：向量和n×n矩阵。对于每个字符x，向量chars包含字符x在语料库中出现的次数计数。对于每个字符序列xy，矩阵chars包含序列在语料库中出现的次数。

chars[x]代表向量中x的查找; chars[x,y]表示矩阵中序列xy的查找。请注意，chars[x] = chars[x,y]的每个值的总和超过y。

请注意，他们的计数均基于1988年AP Newswire语料库（available from the LDC）。如果您不能使用他们的确切语料库，我认为使用同一类型的其他文本（即另一个新闻专线语料库）并缩放您的计数以使它们符合原始数据是不合理的。也就是说，如果给定字符的频率与它们足够相似，则不应该从一个文本到另一个文本变化太大，所以如果你有一个2200万字的新闻专线，你可以计算该文本中的字符和然后将它们加倍以接近原始计数。

如何从混淆矩阵计算概率？需要分母，字符矩阵

1 个答案: