将pandas Dataframe行转换为可迭代的字符串列表

时间:2016-06-07 17:33:12

标签: python list pandas intersection iterable

想象一下,我有一个数据帧df,它有两列,一个USER_ID和一个他们买的产品。

df
USER_ID     |     PRODUCT
1                 a
1                 b
1                 c
2                 d
2                 a
2                 k

我想将此DataFrame转换为新的数据框df2,其中每行是一个用户,产品会聚合到一个字符串列表中。

df2
USER_ID     |     PRODUCT
1                 [a,b,c]
2                 [d,a,k]

最后,我希望能够找到两个用户的PRODUCT列表之间的交集。

我能够创建第二个数据帧,但我正在使用的方法会产生一个不可迭代的列表。

具体我做:     df2 = df1.groupby('USER_ID)['PRODUCT']。agg(lambda x:x.tolist())

这给了我一个系列,我将其转换回数据帧。

df2 = df2.to_frame()

这给了我正在寻找的df2,但是每个产品列表的长度都是1,因此我无法比较1到另一个找到产品的交集。例如,当我执行:

s1 = df2.PRODUCT[df2.USER_ID == 1] 
s2 = df2.PRODUCT[df2.USER_ID == 2]

common_elements = list(set(s1).intersection(set(s2)))
common_elements

结果是空列表而不是[a]。我究竟做错了什么?

4 个答案:

答案 0 :(得分:1)

您可以执行groupby,然后找到两个列表之间的交集,如下所示:

>>>df2 = df.groupby('USER_ID')['PRODUCT'].apply(list).reset_index()
>>>df2

   USER_ID    PRODUCT
0        1  [a, b, c]
1        2  [d, a, k]

>>>list(set(df2['PRODUCT'].loc[0]).intersection(df2['PRODUCT'].loc[1]))
['a']

或者以更短的方式:

df2 = df.groupby('USER_ID')['PRODUCT'].apply(list)
>>>list(set(df2.loc[1]).intersection(df2.loc[2]))
['a']

答案 1 :(得分:1)

试试这个:

df3 = pd.crosstab(df2.PRODUCT,df2.USER_ID, margins= True)
print df3[df3['All']>1]

  # USER_ID  1  2  All
   # PRODUCT           
   # a        1  1    2
   # All      3  3    6

我的解决方案非常类似@Nikil所以使用他的。

df2 = df.groupby('USER_ID')['PRODUCT'].apply(list)
df2 = df2.reset_index()
print df2


#         USER_ID    PRODUCT
#    0        1  [a, b, c]
#    1        2  [d, a, k]

有关Crosstab的更多信息,它是一个数据帧。

pd.crosstab(df2.PRODUCT,df2.USER_ID, margins= True)

#    USER_ID  1  2  All
#    PRODUCT           
#    a        1  1    2
#    b        1  0    1
#    c        1  0    1
#    d        0  1    1
#    k        0  1    1
#    All      3  3    6

答案 2 :(得分:0)

是你想要的吗?

In [7]: pd.Series(np.intersect1d(df.loc[df.USER_ID == 1, 'PRODUCT'], df.loc[df.USER_ID == 2, 'PRODUCT']))
Out[7]:
0    a
dtype: object

或使用index.intersection()

In [18]: (df.set_index('PRODUCT').query('USER_ID == 1').index
   ....:    .intersection(df.set_index('PRODUCT').query('USER_ID == 2').index)
   ....:    .to_series()
   ....: )
Out[18]:
PRODUCT
a    a
Name: PRODUCT, dtype: object

PS我不会将您的df转换为df2,因为您很可能会对此数据模型遇到很多困难(我的意思是列中有列表)

答案 3 :(得分:0)

这将为您提供一个通用的解决方案,以找到任何两个用户的产品列表的交集而没有草率的第二个数据框

from collections import defaultdict

user1 = 1
user2 = 2
products = defaultdict(set)

for record in df.to_dict('records'):
    products[record['USER_ID']].add(record['PRODUCT'])

common_elements = products[user1].intersection(products[user2])]
print(common_elements)

然后如果你想要与所有用户对的所有交叉点

from itertools import combinations
common_elements = {(x,y): products[x].intersection(products[y]) for x,y in combinations(products.keys(),2)}