Question

我想计算每个地区每年的事故发生频率。我怎么能用Python做到这一点。

FILE.CSV

Region,Year
1,2003
1,2003
2,2008
2,2007
2,2007
3,2004
1,2004
1,2004
1,2004

我尝试使用Counter，但它仅适用于一列。例：在2003年的第1区，有2个所以结果应该是：

 Region,Year, freq
    1,2003,2
    1,2003,2
    2,2008,1
    2,2007,2
    2,2007,2
    3,2004,1
    1,2004,3
    1,2004,3
    1,2004,3

我试过这样做。但它似乎不是正确的方式。

from collections import Counter

data = pandas.DataFrame("file.csv")
freq_year= Counter(data.year.values)
dz = [dom[x] for x in data.year.values]
data["freq"] = data["year"].apply(lambda x: dom[x])

我正在考虑使用Groupby。你知道怎么做吗？

Answer 1

不是pandas解决方案，但可以完成工作：

import csv
from collections import Counter

inputs = []
with open('input.csv') as csvfile:
   reader = csv.reader(csvfile)
   for row in reader:
       inputs.append(tuple(row))

freqs = Counter(inputs[1:])
print freqs 
# Counter({('1', '2004'): 3, ('1', '2003'): 2, ('2', '2007'): 2, ('2', '2008'): 1, ('3', '2004'): 1})

这里的关键是将值设为元组，以便Counter找到它们相等。

Answer 2

可能有更好的方法，但我首先添加一个虚拟列并根据列计算freq，如：

df["freq"] = 1
df["freq"] = df.groupby(["Year", "Region"]).transform(lambda x: x.sum())

返回以下df：

  Region  Year  freq
0       1  2003     2
1       1  2003     2
2       2  2008     1
3       2  2007     2
4       2  2007     2
5       3  2004     1
6       1  2004     3
7       1  2004     3
8       1  2004     3

计算列表中项目的频率

2 个答案: