如何用NaN值计算熊猫的时差

时间:2020-11-11 10:40:59

标签: python pandas nan

我对Pandas来说还比较陌生,已经尝试过搜索,但是找不到解决方案。 我有一个数据框,其中包含交易编号,customerId和购买日期,如下所示:

Transaction   12345    12346       12347     12348       12349
customerID
1             NaN    2019-09-01    NaN     2019-09-11      2019-09-22...
2           2019-10-01 NaN         NaN         NaN      2019-10-07...
3    ...

数据帧具有[6334行x 8557列]。 每行都有NaN值,即交易编号。是唯一的。

我想计算每一行的日期差,以便得到

customerID    Datedifference1    Datedifference2     etc.
1                10                    11
2                 6
3   ...

我正在努力获取每个客户ID的日期差异列表。 有没有办法忽略数据帧中的NaN并仅计算非NaN的值? 我想要一个带有customerId以及购买1和2、2和3等之间的datediff的列表,以估计下次购买之前的天数。

有解决方案吗?

1 个答案:

答案 0 :(得分:1)

想法是通过DataFrame.stack重塑数据,然后得到差异,删除每个组的第一个缺失值并重塑:

df = df.apply(pd.to_datetime)

df1 = (df.stack()
         .groupby(level=0)
         .diff()
         .dropna()
         .dt.days
         .reset_index(level=1, drop=True)
         .to_frame())

df1 = (df1.set_index(df1.groupby(['customerID']).cumcount(), append=True)[0]
          .unstack()
          .add_prefix('Datedifference'))
print (df1)
             Datedifference0  Datedifference1
Transaction                                  
1                       10.0             11.0
2                        6.0              NaN

编辑:如果输入数据不同,则更改解决方案-将列转换为日期时间,用DataFrameGroupBy.diff创建新列以区别,通过DataFrame.dropna仅除去NaN行,最后用DataFrame.set_indexGroupBy.cumcountunstack和计数器Series

print (df1)
   customerID Transaction       date
0           1       12346 2019-09-01
1           1       12348 2019-09-11
2           1       12349 2019-09-22
3           2       12345 2019-10-01
4           2       12349 2019-10-07

df1['date'] = pd.to_datetime(df1['date'])
df1['diff'] = df1.groupby('customerID')['date'].diff().dt.days
df1 = df1.dropna(subset=['diff'])

df2 = (df1.set_index(['customerID', df1.groupby('customerID').cumcount()])['diff']
          .unstack()
          .add_prefix('Datedifference'))
print (df2)
            Datedifference0  Datedifference1
customerID                                  
1                      10.0             11.0
2                       6.0              NaN