Question

我想知道数据框中哪些是不同的变量，这里有一个让你理解我的问题的例子

dic = { 'a': ['pippo', 'giacomo', 'giacomo', 'francesco', 'luigi', 'francesco', 'luigi'] }
df = pd.DataFrame(dic)

数据框是

 a
 pippo
 giacomo
 giacomo
 francesco
 luigi
 francesco
 luigi
 francesco
 luigi

我正在寻找的东西是我的结果

 pippo
 giacomo
 francesco
 luigi

这样我才能理解数据框中可用的不同内容

Answer 1

您可以使用drop_duplicates：

df = df.drop_duplicates()
print (df)
           a
0      pippo
1    giacomo
3  francesco
4      luigi

如果需要指定列来检查重复项：

df = df.drop_duplicates(subset=['a'])
print (df)
           a
0      pippo
1    giacomo
3  francesco
4      luigi

对于不同的输出 - numpy array使用unique：

arr = df['a'].unique()
print (arr)
['pippo' 'giacomo' 'francesco' 'luigi']

L = df['a'].unique().tolist()
print (L)
['pippo', 'giacomo', 'francesco', 'luigi']

[pandas]：如何弄清楚列中的内容

1 个答案: