Question

我需要从数据集（csv）中获取一些信息，我将其归结为以下简单表格，

Date_Time               Id     passed 
2013-06-23 20:13:10     112       A
2013-06-23 20:58:11     112       B
2013-06-23 21:01:10     118       A
2013-06-23 21:03:31     118       A
2013-06-23 21:05:49     118       A
2013-06-23 23:05:08     118       B
2013-06-24 08:10:03     118       B

前两个记录显示的是简单案例，在办理登机手续后（A）我们会在0:45:01之后看到退房（B）。

但是也可以在行（记录3,4,5）和签出后续签到更多签到后来。通常，每次办理登机手续都会有相应的退房手续。不幸的是，数据并不完美，有时缺少记录。（在里面例如，三次签到只有两次结账）

我想获得一些登记入住和退房时间的统计值，也许以月为单位或按工作日等等。但我也必须找到一种方法如果我在X小时内没有退房或者如果我发现没有退房，则丢弃记录办理登机手续。

我一直在尝试使用大熊猫，它看起来很有吸引力，但作为一个新手我对这个神奇的包裹提供的所有巨大可能性感到困惑。我希望有人可以帮助我，也许可以在一点点解释我向前看。

非常感谢，

AVM

Answer 1

您的表格的结构不能通过一个查询执行此操作。如果你有一个check_in_id列，那么你可以用一个查询来添加列。我们的想法是，最多只有两行具有相同的check_in_id，并且它们总是具有相同的ID。

因此，编写存储过程来创建tmp表。 tmp表将包含添加的列。您的存储过程需要遍历表的行，并在给定id的情况下找到最近的签出，该ID不在tmp表中。

涉及2行时检索统计信息

1 个答案: