我有一个带有组的数据框。 为了标准化每个组的值,我想将每个组的所有值除以该组中某个元素的值。
df = pd.DataFrame([['a','2018-02-03',42],
['a','2018-02-04',22],
['a','2018-02-05',10],
['a','2018-02-06',32],
['b','2018-02-03',10],
['b','2018-02-04',8],
['b','2018-02-05',2],
['b','2018-02-06',12],
['c','2018-02-03',20],
['c','2018-02-04',30],
['c','2018-02-05',5],
['c','2018-02-06',15]])
df.columns = ['product','day','value']
我想通过'day'=='2018-02-05'的'value'对每个'产品'的'value'列进行规范化
预期结果:
product day value
0 a 2018-02-03 4.2
1 a 2018-02-04 2.2
2 a 2018-02-05 1
3 a 2018-02-06 3.2
5 b 2018-02-03 5
6 b 2018-02-04 4
7 b 2018-02-05 1
8 b 2018-02-06 6
10 c 2018-02-03 4
11 c 2018-02-04 6
12 c 2018-02-05 1
13 c 2018-02-06 3
我尝试了df.groupby('product').transform()
。
可以访问第一个值.transform('first')
。
但是我找不到找到特定值的方法。
注释:
也许无需使用.groupby()
就可以解决这个问题?
答案 0 :(得分:1)
这样做:
df = pd.DataFrame([['a','2018-02-03',42],
['a','2018-02-04',22],
['a','2018-02-05',10],
['a','2018-02-06',32],
['b','2018-02-03',10],
['b','2018-02-04',8],
['b','2018-02-05',2],
['b','2018-02-06',12],
['c','2018-02-03',20],
['c','2018-02-04',30],
['c','2018-02-05',5],
['c','2018-02-06',15]])
df.columns = ['product','day','value']
date = '2018-02-05'
# Set the index to ['product', 'day']
df.set_index(['product', 'day'], inplace=True)
# Helper Series - Values of date at index 'day'
s = df.xs(date, level=1)
# Divide df by helper Series and reset index
df = df.div(s, level=0).reset_index()
print(df)
product day value
0 a 2018-02-03 4.2
1 a 2018-02-04 2.2
2 a 2018-02-05 1.0
3 a 2018-02-06 3.2
4 b 2018-02-03 5.0
5 b 2018-02-04 4.0
6 b 2018-02-05 1.0
7 b 2018-02-06 6.0
8 c 2018-02-03 4.0
9 c 2018-02-04 6.0
10 c 2018-02-05 1.0
11 c 2018-02-06 3.0