Question

我是python的初学者，因此我的问题可能会变得很简单。感谢您的支持或导致我遇到问题的任何线索。

问题：

大约有10个不同的州；订单跨不同的状态移动，状态结束时会生成时间戳。例如，下面有四个状态A，B，C，D。

A 10 AM
B  1 PM
C  4 Pm
D  5 PM

在B = 1PM -10AM = 3中花费的时间。

有时候，同一状态可能会发生多次。因此，我们需要一个变量来存储单个状态的时差值

到目前为止，已附加原始数据csv和我的代码。此计算需要执行多个命令。但是，为简单起见，我现在仅提供一个订单的数据。

样本数据：

Order   States  modified_at
1   Resolved    2018-06-18T15:05:52.2460000
1   Edited      2018-05-24T21:44:07.9030000
1   Pending PO Creation 2018-06-06T19:52:51.5990000
1   Assigned    2018-05-24T17:46:03.2090000
1   Edited      2018-06-04T15:02:57.5130000
1   Draft       2018-05-24T17:45:07.9960000
1   PO Placed   2018-06-06T20:49:37.6540000
1   Edited      2018-06-04T11:18:13.9830000
1   Edited      2018-05-24T17:45:39.4680000
1   Pending Approval    2018-05-24T21:48:23.9180000
1   Edited      2018-06-06T21:00:19.6350000
1   Submitted   2018-05-24T21:44:37.8830000
1   Edited      2018-05-30T11:19:36.5460000
1   Edited      2018-05-25T11:16:07.9690000
1   Edited      2018-05-24T21:43:35.0770000
1   Assigned    2018-06-07T18:39:00.2580000
1   Pending Review  2018-05-24T17:45:10.5980000
1   Pending PO Submission   2018-06-06T14:16:26.6580000

我尝试的代码：

import pandas as pd
import datetime as datetime
from dateutil.relativedelta import relativedelta

fileName = "SamplePR.csv"

df = pd.read_csv(fileName, delimiter=',')

df['modified_at'] = pd.to_datetime(df.modified_at)

df = df.sort_values(by='modified_at')
df = df.reset_index(drop=True)

df1  = df[:-1]
df2 = df[1:]

dfm1 = df1['modified_at']
dfm2 = df2['modified_at']

dfm1 = dfm1.reset_index(drop=True)
dfm2 = dfm2.reset_index(drop=True)

for i in range(len(df)-1):
    start = datetime.datetime.strptime(str(dfm1[i]), '%Y-%m-%d %H:%M:%S')
    ends  = datetime.datetime.strptime(str(dfm2[i]), '%Y-%m-%d %H:%M:%S')
    diff = relativedelta(ends, start)
    print (diff)

到目前为止，我尝试按时间对列表进行排序，然后计算2种状态之间的差异。如果有人可以提供逻辑帮助或指出正确的方向，我们将不胜感激

Answer 1

您可以使用pandas中的diff来获取两行之间的差异

这是示例代码。

In [1]: import pandas as pd
In [2]: from io import StringIO

In [3]: data = StringIO('''Order,States,modified_at
   ...: 1,Resolved,2018-06-18T15:05:52.2460000
   ...: 1,Edited,2018-05-24T21:44:07.9030000
   ...: 1,Pending PO Creation,2018-06-06T19:52:51.5990000
   ...: ''')

In [4]: df = pd.read_csv(data, sep=',')
In [5]: df['modified_at'] = pd.to_datetime(df['modified_at']) #convert the type to datetime
In [6]: df
Out[6]:
   Order               States             modified_at
0      1             Resolved 2018-06-18 15:05:52.246
1      1               Edited 2018-05-24 21:44:07.903
2      1  Pending PO Creation 2018-06-06 19:52:51.599

In [7]: df['diff'] = df['modified_at'].diff() #get the diff and add to a new column    
In [8]: df
Out[8]:
   Order               States             modified_at                      diff
0      1             Resolved 2018-06-18 15:05:52.246                       NaT
1      1               Edited 2018-05-24 21:44:07.903 -25 days +06:38:15.657000
2      1  Pending PO Creation 2018-06-06 19:52:51.599   12 days 22:08:43.696000

Answer 2

欢迎访问，如果您只是要检查日期戳之间的时差，请使用to_datetime转换为datestamp并通过移动

进行区别

index   Order   States  modified_at
0   0   1   Resolved    2018-06-18 15:05:52.246
1   1   1   Edited  2018-05-24 21:44:07.903
2   0   1   Edited  2018-06-06 21:00:19.635
3   1   1   Submitted   2018-05-24 21:44:37.883
4   2   1   Edited  2018-05-30 11:19:36.546
5   3   1   Edited  2018-05-25 11:16:07.969
6   4   1   Edited  2018-05-24 21:43:35.077
7   5   1   Assigned    2018-06-07 18:39:00.258

df.modified_at = pd.to_datetime(df.modified_at)
df['time_spent'] = df.modified_at - df.modified_at.shift()

出局：

0                         NaT
1   -25 days +06:38:15.657000
2     12 days 23:16:11.732000
3   -13 days +00:44:18.248000
4      5 days 13:34:58.663000
5    -6 days +23:56:31.423000
6    -1 days +10:27:27.108000
7     13 days 20:55:25.181000
Name: modified_at, dtype: timedelta64[ns]

您可以根据需要使用数据透视表

df.time_spent = df.time_spent.dt.seconds
pd.pivot_table(df,values='time_spent',index=['Order'],columns=['States'],aggfunc=np.sum)

出局：

States  Assigned    Edited  Resolved    Submitted
Order               
0         NaN    83771.0    0.0      NaN
1         NaN    23895.0    NaN      2658.0
2         NaN    48898.0    NaN      NaN
3         NaN    86191.0    NaN      NaN
4         NaN    37647.0    NaN      NaN
5      75325.0      NaN     NaN      NaN

Answer 3

$datetime1 = new DateTime('2016-11-30 03:55:06');//start time $datetime2 = new DateTime('2016-11-30 11:55:06');//end time $interval = $datetime1->diff($datetime2); echo $interval->format('%Y years %m months %d days %H hours %i minutes %s seconds');//00 years 0 months 0 days 08 hours 0 minutes 0 seconds

需要计算时间戳之间的时差并将其存储在变量中

3 个答案: