我需要从数据集(csv)中获取一些信息,我将其归结为以下简单表格,
Date_Time Id passed
2013-06-23 20:13:10 112 A
2013-06-23 20:58:11 112 B
2013-06-23 21:01:10 118 A
2013-06-23 21:03:31 118 A
2013-06-23 21:05:49 118 A
2013-06-23 23:05:08 118 B
2013-06-24 08:10:03 118 B
前两个记录显示的是简单案例,在办理登机手续后(A)我们会在0:45:01之后看到 退房(B)。
但是也可以在行(记录3,4,5)和签出后续签到更多签到 后来。通常,每次办理登机手续都会有相应的退房手续。 不幸的是,数据并不完美,有时缺少记录。 (在里面 例如,三次签到只有两次结账)
我想获得一些登记入住和退房时间的统计值, 也许以月为单位或按工作日等等。但我也必须找到一种方法 如果我在X小时内没有退房或者如果我发现没有退房,则丢弃记录 办理登机手续。
我一直在尝试使用大熊猫,它看起来很有吸引力,但作为一个新手 我对这个神奇的包裹提供的所有巨大可能性感到困惑。 我希望有人可以帮助我,也许可以在一点点解释我 向前看。
非常感谢,
AVM
答案 0 :(得分:0)
您的表格的结构不能通过一个查询执行此操作。如果你有一个check_in_id列,那么你可以用一个查询来添加列。我们的想法是,最多只有两行具有相同的check_in_id,并且它们总是具有相同的ID。
因此,编写存储过程来创建tmp表。 tmp表将包含添加的列。您的存储过程需要遍历表的行,并在给定id的情况下找到最近的签出,该ID不在tmp表中。