我正在尝试在每个交易编号的列中找到最常用的产品名称组合。我尝试使用groupby和哑变量,但似乎与它们之间的距离不算太远。这是原始数据框的示例:
Timestamp Transaction Number Product UPC Number Price Retailer
\
0 3/2/18 08:15:50 123098 111100001234 1.80 Fast Mart
1 3/2/18 08:15:50 123098 111100001235 23.45 Fast Mart
2 3/2/18 08:15:50 123098 111100001236 6.99 Fast Mart
3 3/2/18 08:19:52 123099 111100001236 6.99 Quick Stop
4 3/2/18 08:19:52 123099 111100001237 7.15 Quick Stop
Product Name
0 Coke 20 oz
1 Miller Lite 24 Pack
2 Pepsi 12 Pack
3 Pepsi 12 Pack
4 Coke 12 Pack
现在,我所有的代码都陷入了僵局。问题是:如何在每个唯一的“交易编号”中找到最常见的“产品名称”值对?
代码:
dummy_df = pd.get_dummies(pos_df,columns = ['Product Name'])
dummy_df.groupby('Transaction Number').sum().head()
这使我无法确定如何使用数据。不胜感激。