应用错误收集

对于每个短语或单词，您必须计算所有3个公式。

第一个等式为您提供短语的逐点互信息。

让我们说短语=＆＃34;祝你好运＆＃34;

所以pmi = log（概率（＆＃34;运气好＆＃34;）/（概率（＆＃34;最佳＆＃34;）x概率（＆＃34;＆＃34;）x概率（＆＃34;运气＆＃34;）））

所以 pmi是对比基数10的对数（短语的概率：单个词概率的乘法）

第二个等式是主语中出现短语的概率，您可以通过（主题文本中使用的短语的频率）除以（每个短语的频率之和）来计算它。主题文本）

例如，如果主题文字是＆＃34;祝你好运。你还有很长的路要走。祝你好运。＆＃34;

短语=＆＃34;祝你好运＆＃34;。该文有两个短语。

所以pmi（短语=＆＃34;祝你好运＆＃34;）=频率＆＃34;祝你好运＆＃34; /（频率（＆＃34;祝好运＆＃34;）+（频率＆＃34;你还有很长的路要走＆＃34;））

= 2 /（2 + 1）

= 2/3

第三个等式为您提供单词或短语的Anscombe变换“相对频率”，并通过2乘以（第2个等式的3/8 +输出）的平方根计算出它/ p>

= 2 x平方根（3/8 + 2/3）

= 2 x平方根1.041

= 2 x 1.0202941

= 2.04