涉及2行时检索统计信息

时间:2014-12-15 09:54:02

标签: sql pandas

我需要从数据集(csv)中获取一些信息,我将其归结为以下简单表格,

Date_Time               Id     passed 
2013-06-23 20:13:10     112       A
2013-06-23 20:58:11     112       B
2013-06-23 21:01:10     118       A
2013-06-23 21:03:31     118       A
2013-06-23 21:05:49     118       A
2013-06-23 23:05:08     118       B
2013-06-24 08:10:03     118       B

前两个记录显示的是简单案例,在办理登机手续后(A)我们会在0:45:01之后看到 退房(B)。

但是也可以在行(记录3,4,5)和签出后续签到更多签到 后来。通常,每次办理登机手续都会有相应的退房手续。 不幸的是,数据并不完美,有时缺少记录。 (在里面 例如,三次签到只有两次结账)

我想获得一些登记入住和退房时间的统计值, 也许以月为单位或按工作日等等。但我也必须找到一种方法 如果我在X小时内没有退房或者如果我发现没有退房,则丢弃记录 办理登机手续。

我一直在尝试使用大熊猫,它看起来很有吸引力,但作为一个新手 我对这个神奇的包裹提供的所有巨大可能性感到困惑。 我希望有人可以帮助我,也许可以在一点点解释我 向前看。

非常感谢,

AVM

1 个答案:

答案 0 :(得分:0)

您的表格的结构不能通过一个查询执行此操作。如果你有一个check_in_id列,那么你可以用一个查询来添加列。我们的想法是,最多只有两行具有相同的check_in_id,并且它们总是具有相同的ID。

因此,编写存储过程来创建tmp表。 tmp表将包含添加的列。您的存储过程需要遍历表的行,并在给定id的情况下找到最近的签出,该ID不在tmp表中。