Pandas-Dataframe:如何计算变量在1分钟内重复的次数

时间:2019-03-11 12:46:21

标签: python-3.x pandas datetime dataframe pandas-groupby

我有以下数据框摘要:

Full dataframe:                   ip      time      cik  crawler
ts                                                              
2019-03-11 00:00:01   71.155.177.ide  00:00:01  1262327      0.0
2019-03-11 00:00:02   71.155.177.ide  00:00:02  1262329      0.0
2019-03-11 00:00:05   69.243.218.cah  00:00:05   751200      0.0
2019-03-11 00:00:08  172.173.121.efb  00:00:08   881890      0.0
2019-03-11 00:00:09   216.254.60.idd  00:00:09  1219169      0.0
2019-03-11 00:00:09    64.18.197.gjc  00:00:09  1261705      0.0
2019-03-11 00:00:09    64.18.197.gjc  00:00:09  1261734      0.0
2019-03-11 00:00:10    64.18.197.gjc  00:00:10  1263094      0.0
2019-03-11 00:00:10    64.18.197.gjc  00:00:10  1264242      0.0
2019-03-11 00:00:10    64.18.197.gjc  00:00:10  1264242      0.0

我想按IP分组,然后使用一些功能进行计数:

1)1分钟内每个IP有多少个唯一CIK

2)在1分钟内每个IP总共有多少CIK。

我已经尝试过重采样功能,但是我不知道如何按照我想要的方式进行计数。 我的代码如下:

dataframe = pd.read_csv(path + "log20060702.csv", usecols=['cik', 'ip', 'time', 'crawler'])
dataframe = dataframe[dataframe['crawler'] == 0]
dataframe['cik'] = pd.to_numeric(dataframe['cik'], downcast='integer')
dataframe['ts'] = pd.to_datetime((dataframe['time']))

dataframe = dataframe.set_index(['ts'])
print("Full dataframe: ", dataframe.head(10))

df_dict = dataframe.groupby("ip")
counter = 0
for key, df_values in df_dict:
    counter += 1
    print("df values: ", df_values)
    # df_values = df_values.resample("5T").count()
    if counter == 5:
        break

或者,如果有人可以告诉我如何按IP分组,那么每1分钟,剩下的我可以自己动手。我并不一定要寻找完整的解决方案,请多多指教。

0 个答案:

没有答案