我试图使用Python获取csv列中唯一项的计数。
示例CSV文件(没有标题):
AB,asd
AB,poi
AB,asd
BG,put
BG,asd
到目前为止我已经尝试过了。
import csv
from collections import defaultdict, Counter
input_file = open('Results/1_sample.csv')
csv_reader = csv.reader(input_file, delimiter=',')
data = defaultdict(list)
for row in csv_reader:
data[row[0]].append(row[1])
for k, v in data.items():
print k
print Counter(v)
以此格式提供输出:
AB
Counter({'asd': 2, 'poi': 1})
BG
Counter({'asd': 1, 'put': 1})
但我希望我的输出像:
AB:2
BG:2
total_unique_count:3 #unique count of column[1], irrespective of the data in column[0]
答案 0 :(得分:5)
您正在寻找SeriesGroupby方法nunique
:
In [11]: df
Out[11]:
0 1
0 AB asd
1 AB poi
2 AB asd
3 BG put
4 BG asd
In [12]: g = df.groupby(0)
In [13]: g[1].nunique()
Out[13]:
0
AB 2
BG 2
Name: 1, dtype: int64
答案 1 :(得分:3)
使用sets
:
data = (('AB', 'asd'),
('AB', 'poi'),
('AB', 'asd'),
('BG', 'put'),
('BG', 'asd'))
unique_items = set(data)
keys = [[entry[0] for entry in unique_items]]
for key in set(keys):
print("Key '{}' appears {} unique times".format(key, keys.count(key)))
Key' BG'出现2次独特的时间
Key' AB'出现2次独特的时间