Pandas相对较新,来自R背景。我有一个像这样的DataFrame
import pandas as pd
import numpy as np
df = pd.DataFrame({'ProductID':[0,5,9,3,2,8], 'StoreID':[0,0,0,1,1,2]})
ProductID StoreID
0 0 0
1 5 0
2 9 0
3 3 1
4 2 1
5 8 2
对于每个StoreID,如何根据订购的ProductID将df
的行标记为1,2,...那么,我该如何规范这些排名呢?换句话说,我如何实现以下
df['Product_Rank_Index'] = np.array([1,2,3,2,1,1])
df['Product_Rank_Index_Normalized'] = np.array([1/3, 2/3, 3/3, 2/2, 1/2, 1/1])
ProductID StoreID Product_Rank_Index Product_Rank_Index_Normalized
0 0 0 1 0.333333
1 5 0 2 0.666667
2 9 0 3 1.000000
3 3 1 2 1.000000
4 2 1 1 0.500000
5 8 2 1 1.000000
我已尝试用df.groupby('StoreID')
做一些事情,但无法正常工作。
答案 0 :(得分:2)
感谢this回答。
df.groupby('StoreID').ProductID.apply(lambda x: x.rank()/len(x))
答案 1 :(得分:1)
您可以先对值进行排序,然后进行分组,如下所示
>>> import pandas as pd
>>> df = pd.DataFrame({'ProductID':[0,5,9,3,2,8], 'StoreID':[0,0,0,1,1,2]})
>>> df.sort(['StoreID', 'ProductID'], inplace=True)
>>> df
ProductID StoreID
0 0 0
1 5 0
2 9 0
4 2 1
3 3 1
5 8 2
>>> df.groupby('StoreID').apply(lambda grp: range(1, len(grp)+1))
StoreID
0 [1, 2, 3]
1 [1, 2]
2 [1]
>>> df.groupby('StoreID').apply(lambda grp: range(1, len(grp)+1)).sum()
[1, 2, 3, 1, 2, 1]
>>> df['Rank'] = df.groupby('StoreID').apply(lambda grp: range(1, len(grp)+1)).sum()
>>> df
ProductID StoreID Rank
0 0 0 1
1 5 0 2
2 9 0 3
4 2 1 1
3 3 1 2
5 8 2 1
然后你可以按照自己的方式规范你的等级..
答案 2 :(得分:1)
Ben你指出,你可以这样做:
df.groupby('StoreID').ProductID.apply(lambda x: x.rank()/len(x))
请注意,使用transform
可以获得相同的结果但更好的练习和更快(大约快两倍):
In [32]: %timeit df.groupby('StoreID').ProductID.apply(lambda x: x.rank()/len(x))
100 loops, best of 3: 2.26 ms per loop
In [31]: %timeit df.groupby('StoreID').ProductID.transform(lambda x: x.rank()/len(x))
1000 loops, best of 3: 1.3 ms per loop