所有可能的组合作为基于主列的数据框的新列

时间:2019-05-20 06:14:54

标签: python pandas combinations probability

我有一个这样的数据框

Dt              A           B           C          D
11-apr          1           1           1          1
10-apr          2           3           1          2

如何获得一个新的框架,如下所示:

我想要所有可能的ABCD组合

可能的组合:A + B,A + C,A + D,B + c,B + d,c + D,A + B + C,B + C + D,A + B + D,A + C + D,A + B + C + d

我能够获得所有组合,但是在pandas._libs.lib.map_infer中得到了文件“ pandas / _libs / src / inference.pyx”,行1472。 TypeError:序列项2:预期的字符串,找到浮点数  当我尝试创建这些列时。

from itertools import chain, combinations
ss_list1=[]
ss_list2=[]
for subset in all_subsets(df):
    ss_list=list(subset)
    # print ss_list
    ss_list_t=tuple(ss_list)
    # print ss_list_t
    ss_list1.insert(1,ss_list_t)
for c in ss_list1:
    if len(c)>1:
        # print c
        ss_list2.insert(1, c)
print ss_list2

df = pd.concat([df[c[1]].add(df[c[0]]) for c in ss_list2], axis=1, keys=ss_list2)
df.columns = df.columns.map(','.join)

pandas._libs.lib.map_infer中的文件“ pandas / _libs / src / inference.pyx”,第1472行 TypeError:序列项目2:期望的字符串,找到的浮点数

1 个答案:

答案 0 :(得分:1)

使用:

#create index from Dt column if necessary
df = df.set_index('Dt')

#https://stackoverflow.com/a/5898031
from itertools import chain, combinations
def all_subsets(ss):
    return chain(*map(lambda x: combinations(ss, x), range(2, len(ss)+1)))

#get all combination from 2 to N
tups = list(all_subsets(df.columns))
#for each combination sum values
df1 = pd.concat([df.loc[:,c].sum(axis=1) for c in tups], axis=1)
#set new columns by join list of tuples tups
df1.columns = ['+'.join(x) for x in tups]
print (df1)
        A+B  A+C  A+D  B+C  B+D  C+D  A+B+C  A+B+D  A+C+D  B+C+D  A+B+C+D
Dt                                                                       
11-apr    2    2    2    2    2    2      3      3      3      3        4
10-apr    5    3    4    4    5    3      6      7      5      6        8