非相等联接的Python中的Countifs

时间:2019-02-03 05:53:08

标签: python python-3.x count

我已经长期困扰这个问题,在这方面需要帮助。

我在表T1中的数据下面有400万行。

我需要根据以下excel公式在python中进行计数:

=COUNTIFS(A:A,A2,B:B,"<"&B2,C:C,"<"&C2)

Table Name -T1

User Id Start time  End time    Count  
A1  10-01-2018 10:15    10-01-2018 12:15    0  
A2  10-01-2018 10:45    10-01-2018 11:15    0  
A1  10-01-2018 10:25    10-01-2018 13:30    1  
A2  10-01-2018 11:00    10-01-2018 11:40    1

最终结果是“计数”列

我尝试了以下方法,在两种情况下都遇到内存错误。

有什么方法可以做到这一点:

  1. pysqldf("SELECT T1.,count() FROM T1 a left join T1 b on a.user_id=b.user_id and a.start_time>b.start_time and a.end_time>b.end_time group by 1,2,3")

  2. 合并然后过滤(python不允许合并中的非均等联接)

1 个答案:

答案 0 :(得分:0)

您可以使用pandas

完成此操作
import pandas as pd

fmt = '%m-%d-%Y %H:%M'
columns = ['Users', 'Start Time', 'End Time', 'Count']

df = pd.read_excel('filename.xlsx', sheetname="Sheet1")
df.columns=columns

#get the start dates less than the first
df1=df[df['Start Time']<df.iloc[0]['Start Time']]
#get the end dates less than the first
df2=df[df['End Time']<df.iloc[0]['End Time']]

#find matching rows between df1 and df2
df3 = pd.merge(df1, df2, on=columns, how='inner')
print(df3)

我在下面的数据上运行了

A1   10-01-2018 10:15   10-01-2018 12:15   0
A2   10-01-2018 10:45   10-01-2018 11:15   0 
A3   10-01-2018 10:25   10-01-2018 13:30   1
A4   10-01-2018 11:00   10-01-2018 11:40   1
A5   10-01-2018 10:00   10-01-2018 11:15   0

此打印:

  Users        Start Time          End Time  Count
0    A5  10-01-2018 10:00  10-01-2018 11:15      0

如果您希望将其返回到python dict中,请使用:

df3.set_index('Users').T.to_dict('dict')
#{'A5': {'Start Time': '10-01-2018 10:00', 'End Time': '10-01-2018 11:15','Count': 0}}

修改

我的计算机上没有excel,并且无法理解excel公式。如果上面的代码除了约束用户之外还能满足您的要求,请将其放置在我定义df1df2的上方。这仅限于特定用户。

df = df[df.Users == 'A1']

然后在这些过滤器之后获取所有计数:

df3.shape()[0]