基于其他列减去行中的值

时间:2018-04-27 04:07:15

标签: python pandas loops dataframe

对于模糊的标题感到很抱歉,很难解释。它更容易显示。

我尝试在同一行中减去值但基于其他列中的字符串。这是一个输入df:

import pandas as pd
import numpy as np

k = 5
N = 8

d = ({'Time' : np.random.randint(k, k + 100 , size=N),
    'Events' : ['ABC','DEF','GHI','JKL','ABC','DEF','GHI','JKL'],
    'Number1' : ['xx','xx',1,'xx','xx','xx',2,'xx'],
    'Number2' : ['xx',1,'xx',1,'xx',2,'xx',2]})

df = pd.DataFrame(data=d)

输出:

  Events Number1 Number2  Time
0    ABC      xx      xx    14
1    DEF      xx       1    34
2    GHI       1      xx    78
3    JKL      xx       1    49
4    ABC      xx      xx    49
5    DEF      xx       2    24
6    GHI       2      xx    19
7    JKL      xx       2    67

我想根据Time的差异导出值。第一个时差列将为ABC - DEF,第二个列将为GHI - JKL

我需要多次重复这个过程。上面的例子显示了2次循环。我可以使用列Number1Number2的整数,但它们不是有序的。

我尝试合并并填充这些列以显示订单。然后使用此列作为参考。

for col in ['Number2']:
    df[col] = df[col].ffill() 

但是当我需要4时,这会产生5个相同的整数。

然后我通过行切片手动减去适当的值,但是当我不得不多次执行此操作时效率非常低。

是否可以创建一个减去预期行的循环?

对于上面的例子,输出将是:

   Diff_1  Diff_2
0     -20      29
1      25     -48

2 个答案:

答案 0 :(得分:2)

import pandas as pd
import numpy as np

k = 5
N = 8

d = ({'Time' : np.random.randint(k, k + 100 , size=N),
    'Events' : ['ABC','DEF','GHI','JKL','ABC','DEF','GHI','JKL'],
    'Number1' : ['xx','xx',1,'xx','xx','xx',2,'xx'],
    'Number2' : ['xx',1,'xx',1,'xx',2,'xx',2]})

df = pd.DataFrame(data=d)
print(df)

输出:

      Events Number1 Number2  Time
0    ABC      xx      xx     8
1    DEF      xx       1    54
2    GHI       1      xx    52
3    JKL      xx       1    101
4    ABC      xx      xx    56
5    DEF      xx       2    34
6    GHI       2      xx    81
7    JKL      xx       2    23

这将在df中有新的col。我们只关心ABCGHI

的行
df['diff'] = df['Time'] - df['Time'].shift(-1)
diff = pd.DataFrame({
    'diff1' : list(df.loc[df['Events'] == 'ABC', 'diff']),
    'diff2' : list(df.loc[df['Events'] == 'GHI', 'diff'])
})
print(diff)

输出:

   diff1  diff2
0  -46.0  -49.0
1   22.0   58.0

答案 1 :(得分:1)

您可以使用shift轻松找到按此排序的df的差异。但是有了这个,你就不会关心很多差异了。你想要第一个差异的第0,第4,第8 ......差异以及第二个差异的第2,第6,第10 ......差异。使用.iloc

很容易实现这一点
import pandas as pd
diff = (df.Time-df.Time.shift(-1))

pd.DataFrame({'Diff_1': diff.iloc[::4].values,
              'Diff_2': diff.iloc[2::4].values})
#   Diff_1  Diff_2
#0   -20.0    29.0
#1    25.0   -48.0
相关问题