如何根据另一列中的值减去df中的行

时间:2018-05-02 05:28:14

标签: python pandas loops

我试图根据其他列的值计算某些行的差异。

使用下面的示例数据框,我想根据Time列中的值计算Code中的差异。具体来说,我想循环并确定BA之间的时差。所以B中的时间 - A中的时间。

我可以使用iloc函数手动执行此操作,但我希望确定一种更有效的方法。特别是如果我必须多次重复这个过程。

import pandas as pd
import numpy as np

k = 5
N = 15

d = ({'Time' : np.random.randint(k, k + 100 , size=N),
    'Code' : ['A','x','B','x','A','x','B','x','A','x','B','x','A','x','B']})

df = pd.DataFrame(data=d)

输出:

   Code  Time
0     A    89
1     x    39
2     B    24
3     x    62
4     A    83
5     x    57
6     B    69
7     x    10
8     A    87
9     x    62
10    B    86
11    x    11
12    A    54
13    x    44
14    B    71

预期产出:

     diff
1    -65
2    -14
3    -1
4     17

2 个答案:

答案 0 :(得分:2)

假设您的Code重复'A', 'x', 'B', 'x',您可以使用

>>> (df.Time[df.Code == 'B'].reset_index() - df.Time[df.Code == 'A'].reset_index())[['Time']]
    Time
0   -65
1   -14
2   -1
3   17

但请注意,'A''B'值交替的原始假设似乎很脆弱。

如果您希望索引从1运行到4,就像在您的问题中一样,您可以将之前的内容分配给diff,然后使用

diff.index += 1
>>> diff
    Time
1   -65
2   -14
3   -1
4   17

答案 1 :(得分:2)

首先按boolean indexing进行过滤,然后使用sub减去reset_index,以获得对齐系列ab的默认索引,如果需要一列,则为{ {1}}添加to_frame

DataFrame

类似的替代解决方案:

a = df.loc[df['Code'] == 'A', 'Time'].reset_index(drop=True)
b = df.loc[df['Code'] == 'B', 'Time'].reset_index(drop=True)
a = df.loc[df['Code'] == 'A'].reset_index()['Time']
b = df.loc[df['Code'] == 'B'].reset_index()['Time']

c = b.sub(a).to_frame('diff') print (c) diff 0 -65 1 -14 2 -1 3 17 添加1

开始,新索引的最后一次开始
rename

如果需要计算更多差异,另一种方法是unstack重新整形:

c = b.sub(a).to_frame('diff').rename(lambda x: x + 1)
print (c)
   diff
1   -65
2   -14
3    -1
4    17
df = df.set_index(['Code', df.groupby('Code').cumcount() + 1])['Time'].unstack()
print (df)
         1     2     3     4     5     6     7
Code                                          
A     89.0  83.0  87.0  54.0   NaN   NaN   NaN
B     24.0  69.0  86.0  71.0   NaN   NaN   NaN
x     39.0  62.0  57.0  10.0  62.0  11.0  44.0