熊猫减去行会得出错误的结果

时间:2019-01-25 06:34:46

标签: python pandas dataframe

我的熊猫数据框由“ timeStamp”列组成,其元素的类型为datetime.datetime。我试图获取此列的两个连续行之间的差异,以获取花费的时间(以秒为单位)。我使用以下代码。

df["Time"] = df["timeStamp"].diff(0).dt.total_seconds()

通常它可以正常工作,但是,在很多情况下,即使不是这种情况,我仍会由于该操作而得到0.0。

示例结果为0.0的值:

import pandas as pd
import datetime
import numpy as np

df = pd.DataFrame({'S.No.': [1, 2, 3, 4], 'ABC': [datetime.datetime(2019,2,25,11,49,50), datetime.datetime(2019,2,25,11,50,0),datetime.datetime(2019,2,25,11,50,7),datetime.datetime(2019,2,25,11,50,12)]})

df["Time"] = df["ABC"].diff(0).dt.seconds

print df

注意:使用python2.7

2 个答案:

答案 0 :(得分:2)

使用

df["Time"] = df["timeStamp"].diff().dt.total_seconds()

相反。

diff中的参数指定要用来计算差异的行上方的行数。现在,您要用0填充它,因此您要从自身中减去一个值,该值始终为0。将其保留为空,它会使用默认值1,因此与上面1行的差值。

答案 1 :(得分:2)

尝试一下:

print(df["timestamp"].diff().fillna(0).dt.seconds)

0     0
1    10
2     7
3     5

df['difference']=df["timestamp"].diff().fillna(0).dt.seconds
print(df)

            timestamp  difference
0 2019-02-25 11:49:50           0
1 2019-02-25 11:50:00          10
2 2019-02-25 11:50:07           7
3 2019-02-25 11:50:12           5