我正在尝试创建一个函数,该函数基于另一个分组字段来计算列表中的唯一值。下面显示了我的示例数据,listaa[i][0]
代表分组字段,而listaa[i][2]
是必须分组的数字。
listaa = [(u'2004-2006', 48600.0, 386011),
(u'2004-2006', 900.0, 385792),
(u'2004-2006', 16200.0, 385792),
(u'2004-2006', 11700.0, 385792),
(u'2004-2006', 900.0, 385792),
(u'2006-2008', 900.0, 386198),
(u'2006-2008', 39600.0, 385916),
(u'2006-2008', 4500.0, 385916),
(u'2006-2008', 900.0, 385916),
(u'2006-2008', 900.0, 385916),
(u'2008-2010', 11700.0, 386067)]
这是我的代码,正在运行。我想知道是否有最简单的方法来做同样的事情。
fechas = list(set([f[0] for f in listaa]))
fechas.sort()
lista1 = []
lista2 = []
for fecha in fechas:
for l in listaa:
if l[0] == fecha:
lista1.append(l[2])
lista2.append(str(len(set(lista1))))
lista1 = []
print lista2
预期结果应为:["2", "2", "1"]
。
答案 0 :(得分:1)
您可以使用defaultdict轻松计算每个组的唯一值。 (在移动设备上,对不起,没有示例输出。)
from collections import defaultdict
values = defaultdict(set)
for row in data:
values[row[0]].add(row[2])
答案 1 :(得分:0)
提供一种利用pandas
的{{1}}解决方案:
nunique()
礼物:
import pandas as pd
listaa = [(u'2004-2006', 48600.0, 386011),
(u'2004-2006', 900.0, 385792),
(u'2004-2006', 16200.0, 385792),
(u'2004-2006', 11700.0, 385792),
(u'2004-2006', 900.0, 385792),
(u'2006-2008', 900.0, 386198),
(u'2006-2008', 39600.0, 385916),
(u'2006-2008', 4500.0, 385916),
(u'2006-2008', 900.0, 385916),
(u'2006-2008', 900.0, 385916),
(u'2008-2010', 11700.0, 386067)]
df = pd.DataFrame(listaa, columns=['Date','Val1','Val2'])
df.groupby('Date')['Val2'].nunique().tolist()