我有一组数据,我希望根据这些数据绘制每个唯一ID数的键数(x = unique_id_count,y = key_count),我'我试图学习如何利用pandas
。
在这种情况下:
unique_ids 1 =密钥数2
unique_ids 2 =密钥数1
from pandas import *
key_items = ("a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "c", "c", "c")
id_data = ("X", "X", "X", "X", "X", "X", "X", "Y", "Y", "Y", "X", "X", "X")
df = DataFrame({'keys': key_items, 'ids': id_data})
我设法通过从数据框中提取数据并重新构建数据并重建新的数据帧,将数据转换为我想要的数据。在这种情况下,最好不要在没有pandas的python中完成所有操作......
unique_values = defaultdict(list)
for items in df.itertuples(index=False):
key = items[1]
v = items[0]
unique_values[key].append(v)
unique_values_count = {}
for k, values in unique_values.iteritems():
unique_values_count[k] = [len(set(values))]
# reformat for plotting
key_col = ("a", "b", "c")
id_col = [unique_values_count[k][0] for k in key_col]
df2 = DataFrame({"keys":key_col, "unique_id_count": id_col})
df2.groupby("unique_id_count").size().plot(kind="bar")
使用初始数据框是否有更好的方法直接执行此操作?
答案 0 :(得分:25)
答案 1 :(得分:20)
s = df.groupby("keys").ids.agg(lambda x:len(x.unique()))
pd.value_counts(s).plot(kind="bar")
答案 2 :(得分:2)
一个简单的解决方案是-
df['your_column'].count_values().plot.bar(rot=0)
如果您希望限制条形数量(如果值太多)-
df['your_column'].count_values()[:no_of_values].plot.bar(rot=0)