将日期向量转换成范围的Python方式?

时间:2018-11-14 08:03:11

标签: python pandas date datetime

我有一个熊猫DataFrame,每天有一行,还有一些布尔列。我想将它们转换为保存范围的数据框,其中这些列为True。

启动DF的示例:

import pandas as pd

t = True
f = False

df = pd.DataFrame(
    {'indic': [f, f, t, t, t, f, f, f, t, f, f, t, t, t, t]},
    index=pd.date_range("2018-01-01", "2018-01-15")
)

print(df)

            indic
2018-01-01  False
2018-01-02  False
2018-01-03   True
2018-01-04   True
2018-01-05   True
2018-01-06  False
2018-01-07  False
2018-01-08  False
2018-01-09   True
2018-01-10  False
2018-01-11  False
2018-01-12   True
2018-01-13   True
2018-01-14   True
2018-01-15   True

此DataFrame的列从2018年1月3日到2018年1月5日为True,然后是2018年1月9日(仅一天),然后是2018年1月12日至2018年1月15日。

在此示例中,我要查找的输出是此DF(日期对象而不是字符串也是可以的,甚至是首选):

desired_result = pd.DataFrame({
    'from': ["2018-01-03", "2018-01-09", "2018-01-12"],
    'to': ["2018-01-05", "2018-01-09", "2018-01-15"]
})

print(desired_result)

         from          to
0  2018-01-03  2018-01-05
1  2018-01-09  2018-01-09
2  2018-01-12  2018-01-15

作为扩展,在后续步骤中,我希望它适用于多列,例如:

df = pd.DataFrame(
    {
        'indic_A': [f, f, t, t, t, f, f, f, t, f, f, t, t, t, t],
        'indic_B': [f, f, f, f, f, f, f, f, t, t, t, t, t, f, f]
    },
    index=pd.date_range("2018-01-01", "2018-01-15")
)

desired_result = pd.DataFrame({
    'from': ["2018-01-03", "2018-01-09", "2018-01-12", "2018-01-09"],
    'to': ["2018-01-05", "2018-01-09", "2018-01-15", "2018-01-13"],
    'what': ["indic_A", "indic_A", "indic_A", "indic_B"]
})

print(desired_result)

         from          to     what
0  2018-01-03  2018-01-05  indic_A
1  2018-01-09  2018-01-09  indic_A
2  2018-01-12  2018-01-15  indic_A
3  2018-01-09  2018-01-13  indic_B

是否有Python的优雅方法来实现此目的-甚至还有熊猫函数?

2 个答案:

答案 0 :(得分:1)

首先使用melt进行重塑,然后按cumsum创建唯一组的帮助器列,按boolean indexing仅过滤True s并按功能汇总agg firstlast

df = df.rename_axis('date').reset_index().melt('date', var_name='ind', value_name='boolean')
df['new'] = (~df['boolean']).cumsum()
df = (df[df['boolean']]
         .groupby('new')
         .agg({'date':['first','last'], 'ind':'first'})
         .reset_index(drop=True))
df.columns = df.columns.map('_'.join)
print (df)
  date_first  date_last ind_first
0 2018-01-03 2018-01-05   indic_A
1 2018-01-09 2018-01-09   indic_A
2 2018-01-12 2018-01-15   indic_A
3 2018-01-09 2018-01-13   indic_B

答案 1 :(得分:1)

您可以尝试FAILFAST

首先在上下两列中进行新的移位

pd.DataFrame.shift

df['down_shift'] = df['indic'].shift() df['up_shift'] = df['indic'].shift(-1) 就像

df

这里的想法是

  • 情况1 :(印度,下移)=(正确,假)-开始
  • 情况2 :(印度,上移)=(正确,假)-结束
  • 情况3:情况1和情况2均发生-开始和结束

所以我们用把戏

  • 真-假= 1
  • 错误-正确= -1
  • 真-真= 0
  • False-False = 0

代码:

            indic down_shift up_shift
2018-01-01  False        NaN    False
2018-01-02  False      False     True
2018-01-03   True      False     True
2018-01-04   True       True     True
2018-01-05   True       True    False
2018-01-06  False       True    False
2018-01-07  False      False    False
2018-01-08  False      False     True
2018-01-09   True      False    False
2018-01-10  False       True    False
2018-01-11  False      False     True
2018-01-12   True      False     True
2018-01-13   True       True     True
2018-01-14   True       True     True
2018-01-15   True       True      NaN

然后我们检查case_start = df['indic'] - df['down_shift'] case_end = df['indic'] - df['up_shift'] start_date_list = df[case_start == 1].index end_date_list = df[case_end == 1].index

start_date_list

然后我们检查DatetimeIndex(['2018-01-03', '2018-01-09', '2018-01-12'], dtype='datetime64[ns]', freq=None)

end_date_list

最后一个日期没有从True更改为False,因此我们需要手动添加。