以月为单位获取两个日期时间之间的天数(以熊猫为单位)

时间:2020-08-21 21:50:04

标签: python pandas dataframe sklearn-pandas

这里是数据集,其中包含将人员分配给角色的时间,并具有其和开始日期以及年份月,以便按其在该角色中所处的月份:

  | ID | Name | strt_dt | end_dt | yearmo | 
  | 1  | Jay  | 4-22-19 | 7-30-19| 201904 | 
  | 1  | Jay  | 4-22-19 | 7-30-19| 201905 |  
  | 1  | Jay  | 4-22-19 | 7-30-19| 201906 |   
  | 1  | Jay  | 4-22-19 | 7-30-19| 201907 |  
  | 2  | Fao  | 7-14-19 |10-14-19| 201907 |    
  | 2  | Fao  | 7-14-19 |10-14-19| 201908 |   
  | 2  | Fao  | 7-14-19 |10-14-19| 201909 |   
  | 2  | Fao  | 7-14-19 |10-14-19| 201910 |    

我要计算该人员担任该角色的每一年月中该角色在该月中的多少天。输出应如下所示:

  | ID | Name | strt_dt | end_dt | yearmo | no_of days|
  | 1  | Jay  | 4-22-19 | 7-30-19| 201904 |  9 |
  | 1  | Jay  | 4-22-19 | 7-30-19| 201905 |  31|  
  | 1  | Jay  | 4-22-19 | 7-30-19| 201906 |  30|  
  | 1  | Jay  | 4-22-19 | 7-30-19| 201907 |  30| 
  | 2  | Fao  | 7-14-19 |10-14-19| 201907 |  18|  
  | 2  | Fao  | 7-14-19 |10-14-19| 201908 |  31|  
  | 2  | Fao  | 7-14-19 |10-14-19| 201909 |  30|  
  | 2  | Fao  | 7-14-19 |10-14-19| 201910 |  14|  

我试图从strt中提取它们的日期(减去30以获得dday的数目)和结束日期,并创建一个单独的列。但是我仍然坚持从那里着手。欢迎任何想法或建议。

df['strt_yearmo'] = df['strt_dt'].dt.year * 100 +df['strt_dt'].dt.month
df['end_yearmo'] = df['end_dt'].dt.year * 100 +df['end_dt'].dt.month


  | ID | Name | strt_dt | end_dt | yearmo | strt_yearmo|end_yearmo|
  | 1  | Jay  | 4-22-19 | 7-30-19| 201904 |  201904    |201907|
  | 1  | Jay  | 4-22-19 | 7-30-19| 201905 |  201904    |201907|
  | 1  | Jay  | 4-22-19 | 7-30-19| 201906 |  201904    |201907|  
  | 1  | Jay  | 4-22-19 | 7-30-19| 201907 |  201904    |201907 |
  | 2  | Fao  | 7-14-19 |10-14-19| 201907 |  201907    |201910 |
  | 2  | Fao  | 7-14-19 |10-14-19| 201908 |  201907    |201910 | 
  | 2  | Fao  | 7-14-19 |10-14-19| 201909 |  201907    |201910 |
  | 2  | Fao  | 7-14-19 |10-14-19| 201910 |  201907    |201910 | 

1 个答案:

答案 0 :(得分:2)

将日期强制为datetime并在np.select(condition, choice,alternative)中提取结束月份日期后使用yearmo

提取frmo yearmo的结束月份日期

df['startmo']=pd.to_datetime(df['yearmo'].astype(str), format='%Y%m')+ pd.offsets.MonthEnd(0)

强制strt_dtend_dt到目前为止

datedf['strt_dt'],df['end_dt']=pd.to_datetime(df['strt_dt']),pd.to_datetime(df['end_dt'])

有条件参加

conditions=[df.startmo.dt.month==df.strt_dt.dt.month, df.startmo.dt.month==df.end_dt.dt.month]

#If month in yearmo is the same with strt_dt,substract strt_dt from endmont.
#If month in yearmo is the same with end_dt, extract the days in end_dt

根据上述每个条件来选择核心

choices=[df.startmo.sub(df.strt_dt).dt.days+1,df.end_dt.dt.day]

通过匹配条件和选择来计算天数。包括替代品。这里的替代方案是开始和结束的月份与yearmo不匹配的地方,这意味着月份在中间,因此只需提取日期作为条件的替代方案

df['no_of days']=np.select(conditions,choices,df.startmo.dt.day)




ID Name    strt_dt     end_dt  yearmo    startmo  no_of days
0   1  Jay 2019-04-22 2019-07-30  201904 2019-04-30           9
1   1  Jay 2019-04-22 2019-07-30  201905 2019-05-31          31
2   1  Jay 2019-04-22 2019-07-30  201906 2019-06-30          30
3   1  Jay 2019-04-22 2019-07-30  201907 2019-07-31          30
4   2  Fao 2019-07-14 2019-10-14  201907 2019-07-31          18
5   2  Fao 2019-07-14 2019-10-14  201908 2019-08-31          31
6   2  Fao 2019-07-14 2019-10-14  201909 2019-09-30          30
7   2  Fao 2019-07-14 2019-10-14  201910 2019-10-31          14