我正在尝试遵循this SO post的第一个答案来计算事件持续时间。帖子中的示例是降雨持续时间,这个人想知道降雨的总量以及降雨事件的持续时间(以小时为单位)。
我的情况是一个类似的时间序列,但是应用程序是一台泵,我想知道泵每天运行的总时长(以小时为单位)。我的数据是泵速度命令,只要泵速度大于0.0,泵就在运行。
首先,我将CSV文件读入Pandas。
#read CSV file
df = pd.read_csv('C:\\Users\\desktop\\data.csv', index_col='Date', parse_dates=True)
# Converting the index as date
df.index = pd.to_datetime(df.index)
df
除了尝试将我的Date
索引转换为日期时间时遇到问题。这将返回ValueError: day is out of range for month
有人会知道解决方法吗?最后,这是我正在尝试从SO post第一个答案中重新创建的代码,作者正在其中创建帮助列...
# create helper columns defining contiguous blocks and day
df['block'] = (df['Pump4VFD'].astype(bool).shift() != df['Pump4VFD'].astype(bool)).cumsum()
df['day'] = df.index.dt.normalize()
# group by day to get unique block count and value count
session_map = df[df['value'].astype(bool)].groupby('day')['block'].nunique()
hour_map = df[df['value'].astype(bool)].groupby('day')['value'].count()
# map to original dataframe
df['sessions'] = df['day'].map(session_map)
df['hours'] = df['day'].map(hour_map)
# calculate result
res = df.groupby(['day', 'hours', 'sessions'], as_index=False)['value'].sum()
res['duration'] = res['hours'] / res['sessions']
res['amount'] = res['value'] / res['sessions']
我的数据如下:
Pump4VFD
Date
1/0/00 12:45 AM 0.0
1/0/00 12:50 AM 0.0
1/0/00 12:55 AM 0.0
1/0/00 12:00 AM 0.0
1/0/00 1:05 AM 0.0
答案 0 :(得分:1)
您可能想将dayfirst = True添加到pd.to_datetime
df.index = pd.to_datetime(df.index,dayfirst=True)
这可能是解决方法之一;但是如果不起作用,请尝试以下添加:
df.index = pd.to_datetime(df.index,dayfirst=True,infer_datetime_format=True)
如果您需要进一步说明,请尝试这篇文章:ValueError: day is out of range for month