Question

我有一个数据框，其中每一行都是网页访问次数和访问的日期时间。例如：

from datetime import datetime
import pandas as pd
df = pd.DataFrame({'idvisitor': [1, 2, 3, 2, 4, 1, 1],
                   'dt': pd.date_range(start=datetime(2016, 1, 1), periods=7)})
print(df)

现在，按日期时间排序后（示例数据帧已经排序）我想添加一个列，其中值是先前看到的具有相同idvisitor的元素数。即我们之前有多少次见过具有某个idvisitor的用户。

示例输出：

          dt  idvisitor  prev_visits
0 2016-01-01          1            0
1 2016-01-02          2            0
2 2016-01-03          3            0
3 2016-01-04          2            1
4 2016-01-05          4            0
5 2016-01-06          1            1
6 2016-01-07          1            2

请注意，我不想只计算某个idvisitor的重复次数（这相当容易），我希望重复次数达到当前行，每行。

如果没有昂贵的for循环，怎么办呢？我有数百万行。

Answer 1

'idvisitor'上的

groupby并致电cumcount：

In [29]:
df['prev_count'] = df.groupby('idvisitor').cumcount()
df

Out[29]:
          dt  idvisitor  prev_count
0 2016-01-01          1           0
1 2016-01-02          2           0
2 2016-01-03          3           0
3 2016-01-04          2           1
4 2016-01-05          4           0
5 2016-01-06          1           1
6 2016-01-07          1           2

计算先前在pandas中找到的重复项的数量

1 个答案: