我有一个看起来像这样的数据框
date ext ID status count
0 2018-07-24T18:38:21.760 jpg ID1 LOG_STATUS_A 4
1 2018-07-24T18:38:21.760 jpg ID1 LOG_STATUS_A 3
2 2018-07-24T18:38:21.760 mp4 ID7 LOG_STATUS_B 1
3 2018-07-24T18:38:21.760 mp4 ID1 LOG_STATUS_C 1
4 2018-07-24T18:38:21.760 ts ID4 LOG_STATUS_B 1
5 2018-07-24T18:38:21.760 ts ID5 LOG_STATUS_C 1
6 2018-07-24T18:38:21.760 jpg ID1 LOG_STATUS_A 4
7 2018-07-24T18:38:21.760 jpg ID1 LOG_STATUS_A 3
8 2018-07-24T18:38:21.760 mp4 ID7 LOG_STATUS_B 1
9 2018-07-24T18:38:21.760 mp4 ID1 LOG_STATUS_C 1
给我一个按ID排序的列表,文件扩展名为jpg(例如),日志状态为A和B,而忽略时间和总和。
我想做的是产生一个看起来像这样的DF:
ext ID status count
0 jpg ID1 LOG_STATUS_A 16
1 mp4 ID1 LOG_STATUS_A 3
2 ts ID4 LOG_STATUS_B 1
3 mp4 ID7 LOG_STATUS_B 1
通常在sql中,我会说这样的话
select * ext, ID, status, count from +db+ where status not like '%C' groupby ID and ext...
我尝试这样做:
grouped=df.groupby(['AN','ext','reqs']).groups
for an,ext,reqs in grouped:
print an
print ext
print reqs
但是它不会产生经过过滤的df,而只是一个可以工作的组列表,但是我真的在寻找经过过滤的数据帧。只是不熟悉SQL到熊猫的翻译。