我试图根据其他列的值计算某些行的差异。
使用下面的示例数据框,我想根据Time
列中的值计算Code
中的差异。具体来说,我想循环并确定B
和A
之间的时差。所以B中的时间 - A中的时间。
我可以使用iloc
函数手动执行此操作,但我希望确定一种更有效的方法。特别是如果我必须多次重复这个过程。
import pandas as pd
import numpy as np
k = 5
N = 15
d = ({'Time' : np.random.randint(k, k + 100 , size=N),
'Code' : ['A','x','B','x','A','x','B','x','A','x','B','x','A','x','B']})
df = pd.DataFrame(data=d)
输出:
Code Time
0 A 89
1 x 39
2 B 24
3 x 62
4 A 83
5 x 57
6 B 69
7 x 10
8 A 87
9 x 62
10 B 86
11 x 11
12 A 54
13 x 44
14 B 71
预期产出:
diff
1 -65
2 -14
3 -1
4 17
答案 0 :(得分:2)
假设您的Code
重复'A', 'x', 'B', 'x'
,您可以使用
>>> (df.Time[df.Code == 'B'].reset_index() - df.Time[df.Code == 'A'].reset_index())[['Time']]
Time
0 -65
1 -14
2 -1
3 17
但请注意,'A'
和'B'
值交替的原始假设似乎很脆弱。
如果您希望索引从1运行到4,就像在您的问题中一样,您可以将之前的内容分配给diff
,然后使用
diff.index += 1
>>> diff
Time
1 -65
2 -14
3 -1
4 17
答案 1 :(得分:2)
首先按boolean indexing
进行过滤,然后使用sub
减去reset_index
,以获得对齐系列a
和b
的默认索引,如果需要一列,则为{ {1}}添加to_frame
:
DataFrame
类似的替代解决方案:
a = df.loc[df['Code'] == 'A', 'Time'].reset_index(drop=True)
b = df.loc[df['Code'] == 'B', 'Time'].reset_index(drop=True)
a = df.loc[df['Code'] == 'A'].reset_index()['Time']
b = df.loc[df['Code'] == 'B'].reset_index()['Time']
从c = b.sub(a).to_frame('diff')
print (c)
diff
0 -65
1 -14
2 -1
3 17
添加1
rename
如果需要计算更多差异,另一种方法是unstack
重新整形:
c = b.sub(a).to_frame('diff').rename(lambda x: x + 1)
print (c)
diff
1 -65
2 -14
3 -1
4 17
df = df.set_index(['Code', df.groupby('Code').cumcount() + 1])['Time'].unstack()
print (df)
1 2 3 4 5 6 7
Code
A 89.0 83.0 87.0 54.0 NaN NaN NaN
B 24.0 69.0 86.0 71.0 NaN NaN NaN
x 39.0 62.0 57.0 10.0 62.0 11.0 44.0