我有这个事件数据集,在检索它时只记录了更改,我希望将这些更改转换为统一的时间序列。每隔12小时记录一次数据。 capture_time是一个对象,start_time是datetime64。
ID Count retrieval_time start_time
100231380 70 2017-10-11T23:30:00.000+10:30 21/10/17 23:30
100231380 70 2017-10-12T11:30:00.000+10:30 21/10/17 23:30
100231380 72 2017-10-12T23:30:00.000+10:30 21/10/17 23:30
100231380 72 2017-10-13T11:30:00.000+10:30 21/10/17 23:30
100231380 73 2017-10-13T23:30:00.000+10:30 21/10/17 23:30
100231380 74 2017-10-14T11:30:00.000+10:30 21/10/17 23:30
100231380 74 2017-10-14T23:30:00.000+10:30 21/10/17 23:30
100231380 74 2017-10-15T11:30:00.000+10:30 21/10/17 23:30
100231380 77 2017-10-15T23:30:00.000+10:30 21/10/17 23:30
100231380 83 2017-10-16T11:30:00.000+10:30 21/10/17 23:30
100231380 85 2017-10-16T23:30:00.000+10:30 21/10/17 23:30
100231380 85 2017-10-17T11:30:00.000+10:30 21/10/17 23:30
100231380 90 2017-10-17T23:30:00.000+10:30 21/10/17 23:30
100231380 90 2017-10-18T11:30:00.000+10:30 21/10/17 23:30
100231380 93 2017-10-18T23:30:00.000+10:30 21/10/17 23:30
100231380 99 2017-10-19T23:30:00.000+10:30 21/10/17 23:30
100231380 104 2017-10-20T23:30:00.000+10:30 21/10/17 23:30
100231380 117 2017-10-21T23:30:00.000+10:30 21/10/17 23:30
我希望能够使它保持一致,例如从检索时间2017年10月19日起的最后3行中,没有11:30 am的记录数据。我希望能够添加一行并将其替换为整个行的最后观察。
我想输出的是这样的东西。
ID Count retrieval_time start_time
100231380 70 2017-10-11T23:30:00.000+10:30 21/10/17 23:30
100231380 70 2017-10-12T11:30:00.000+10:30 21/10/17 23:30
100231380 72 2017-10-12T23:30:00.000+10:30 21/10/17 23:30
100231380 72 2017-10-13T11:30:00.000+10:30 21/10/17 23:30
100231380 73 2017-10-13T23:30:00.000+10:30 21/10/17 23:30
100231380 74 2017-10-14T11:30:00.000+10:30 21/10/17 23:30
100231380 74 2017-10-14T23:30:00.000+10:30 21/10/17 23:30
100231380 74 2017-10-15T11:30:00.000+10:30 21/10/17 23:30
100231380 77 2017-10-15T23:30:00.000+10:30 21/10/17 23:30
100231380 83 2017-10-16T11:30:00.000+10:30 21/10/17 23:30
100231380 85 2017-10-16T23:30:00.000+10:30 21/10/17 23:30
100231380 85 2017-10-17T11:30:00.000+10:30 21/10/17 23:30
100231380 90 2017-10-17T23:30:00.000+10:30 21/10/17 23:30
100231380 90 2017-10-18T11:30:00.000+10:30 21/10/17 23:30
100231380 93 2017-10-18T23:30:00.000+10:30 21/10/17 23:30
100231380 93 2017-10-19T11:30:00.000+10:30 21/10/17 23:30
100231380 99 2017-10-19T23:30:00.000+10:30 21/10/17 23:30
100231380 99 2017-10-20T11:30:00.000+10:30 21/10/17 23:30
100231380 104 2017-10-20T23:30:00.000+10:30 21/10/17 23:30
100231380 104 2017-10-21T11:30:00.000+10:30 21/10/17 23:30
100231380 117 2017-10-21T23:30:00.000+10:30 21/10/17 23:30
我还想知道如何格式化retrieve_time和start_time,使其与可以比较的相似。
而且,我想要一些通用的解决方案,因为我已经汇总了多个事件的分组数据,并且时间间隔是相同的12小时,但是,对于所有事件,retrieve_time和start_time是不同的。
谢谢。
答案 0 :(得分:0)
根据我的理解,这就是我实施上述操作的方式。 我的csv数据是:
r
以下脚本:
s
您可以按照与以下相同的逻辑来转换start_time:
np.random.randint(128, size=(100000,4))
然后比较ret_time和start_time。
希望这会有所帮助。