将个性方程实现为多字符串

时间:2014-06-15 04:01:24

标签: math equation differential-equations

我正在尝试在字符串列表的Android应用程序中实现Personality, Gender, and Age in the Language of Social Media等式,通过使用Pattern和Matcher来查找模式中的匹配单词。

我有5个模式和一个100个字符串的列表= 900个单词。在900中找到匹配模式的结果是:每个模式分别为16,25,5,50,10个字。

所有这些已经完成,我目前停留在实现文章中提到的方程式到我得到的数据,所以我可以获得可以转换为图表的值。

enter image description here

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:0)

对于每个短语或单词,您必须计算所有3个公式。

第一个等式为您提供短语的逐点互信息。

让我们说短语="祝你好运"

所以pmi = log(概率("运气好")/(概率("最佳")x概率("")x概率(& #34;运气")))

所以 pmi是对比基数10的对数(短语的概率:单个词概率的乘法)

第二个等式是主语中出现短语的概率,您可以通过(主题文本中使用的短语的频率)除以(每个短语的频率之和)来计算它。主题文本)

例如,如果主题文字是"祝你好运。你还有很长的路要走。祝你好运。"

短语="祝你好运"。该文有两个短语。

所以pmi(短语="祝你好运")=频率"祝你好运" /(频率("祝好运")+(频率"你还有很长的路要走"))

= 2 /(2 + 1)

= 2/3

第三个等式为您提供单词或短语的Anscombe变换“相对频率”,并通过2乘以(第2个等式的3/8 +输出)的平方根计算出它/ p>

= 2 x平方根(3/8 + 2/3)

= 2 x平方根1.041

= 2 x 1.0202941

= 2.04