如何从列表列表的熊猫列计算逐点相互信息(PMI)?

时间:2019-02-08 16:57:25

标签: python pandas numpy

我有一个格式为 df 的熊猫数据框:

    col
1   ['A','B','C','D']
2   ['A','B','D','E']
3   ['C','D']
4   ['A','B','C']

我想为列中所有元素(例如('A','B'),('B','C')的唯一元素组合计算逐点PMI

根据我的理解,基于上面提供的Wikipedia链接,我相信公式看起来像(尽管我可能错了):

np.log(pair_frequency / (element_1_frequency *  element_2_frequency) )

这里,该对可能是('A','B'),element_1可能是'A',element 2可能是'B'。

对于上面的结构(在pandas列中有列表列表),执行此操作的有效方法是什么?

0 个答案:

没有答案