Question

我开始对大熊猫开心了，但我不确定如何解决这个问题。

我在pandas数据框中有一列字典，我试图计算其中的熵。

字典中的每个键表示一个簇，值是同一簇中的单词。每行看起来像这样，字典中的元素数量不同。即，一些词典有两个群集，而有些词典最多有10个：

  {1: ["'stop'", "'avoid'", "'stifle'", "'not'", "'squelch'", "'contain'", "'cover'", "'suppress'"], 2: ["'hold'"], 3: ["'burke'"], 4: ["'hod'"]}

我想计算每一行的熵，但我希望每个集群中的值看起来都一样。如上所述，理想情况下，上述示例基本上如下所示：

{1: ["'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'stop'"], 2: ["'hold'"], 3: ["'burke'"], 4: ["'hod'"]}

然后最后我希望从群集中获取每个值，然后将其转换为一个看起来像这样的单个列表，这样我就可以运行我的熵公式：

["'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'stop'", "'hold'", "'burke'", "'hod'"]

我正在努力找到一种方法来使用pandas或更基本的python来创建具有类似我的第二个示例的集群的新字典，然后将这些值转换为类似我的第三个示例的列表。

Answer 1

目前尚不清楚熵计算如何适合您指定的输入和输出，但这是使用Pandas和基本Python混合获得所需输出的一种方法。

import pandas as pd

data = {1: ["'stop'", "'avoid'", "'stifle'", "'not'", "'squelch'", 
            "'contain'", "'cover'", "'suppress'"], 
        2: ["'hold'"], 
        3: ["'burke'"], 
        4: ["'hod'"]}
s = pd.Series(data)

s
1    ['stop', 'avoid', 'stifle', 'not', 'squelch', ...
2                                             ['hold']
3                                            ['burke']
4                                              ['hod']
dtype: object

获取每个列表的第一个元素，然后添加一个空格以便稍后拆分：

s2 = s.apply(lambda x: (x[0]+" ")*len(x))

s2
1    'stop' 'stop' 'stop' 'stop' 'stop' 'stop' 'sto...
2                                              'hold' 
3                                             'burke' 
4                                               'hod' 
dtype: object

现在拉出每一行中的每个元素并合并成一个列表：

slist = []
for valset in s2:
    # strip the trailing space in each valset
    for val in valset.strip().split(" "):
        slist.extend([val])

slist
["'stop'", "'stop'", "'stop'",  "'stop'", "'stop'",  "'stop'",
 "'stop'", "'stop'",  "'hold'",  "'burke'", "'hod'"]

从旧词典Pandas DataFrame创建新词典以计算熵

1 个答案: