我正在尝试在字符串列表的Android应用程序中实现Personality, Gender, and Age in the Language of Social Media等式,通过使用Pattern和Matcher来查找模式中的匹配单词。
我有5个模式和一个100个字符串的列表= 900个单词。在900中找到匹配模式的结果是:每个模式分别为16,25,5,50,10个字。
所有这些已经完成,我目前停留在实现文章中提到的方程式到我得到的数据,所以我可以获得可以转换为图表的值。
答案 0 :(得分:0)
对于每个短语或单词,您必须计算所有3个公式。
第一个等式为您提供短语的逐点互信息。
让我们说短语="祝你好运"
所以pmi = log(概率("运气好")/(概率("最佳")x概率("")x概率(& #34;运气")))
所以 pmi是对比基数10的对数(短语的概率:单个词概率的乘法)
第二个等式是主语中出现短语的概率,您可以通过(主题文本中使用的短语的频率)除以(每个短语的频率之和)来计算它。主题文本)
例如,如果主题文字是"祝你好运。你还有很长的路要走。祝你好运。"
短语="祝你好运"。该文有两个短语。
所以pmi(短语="祝你好运")=频率"祝你好运" /(频率("祝好运")+(频率"你还有很长的路要走"))
= 2 /(2 + 1)
= 2/3
第三个等式为您提供单词或短语的Anscombe变换“相对频率”,并通过2乘以(第2个等式的3/8 +输出)的平方根计算出它/ p>
= 2 x平方根(3/8 + 2/3)
= 2 x平方根1.041
= 2 x 1.0202941
= 2.04