我想知道数据框中哪些是不同的变量,这里有一个让你理解我的问题的例子
dic = { 'a': ['pippo', 'giacomo', 'giacomo', 'francesco', 'luigi', 'francesco', 'luigi'] }
df = pd.DataFrame(dic)
数据框是
a
pippo
giacomo
giacomo
francesco
luigi
francesco
luigi
francesco
luigi
我正在寻找的东西是我的结果
pippo
giacomo
francesco
luigi
这样我才能理解数据框中可用的不同内容
答案 0 :(得分:2)
您可以使用drop_duplicates
:
df = df.drop_duplicates()
print (df)
a
0 pippo
1 giacomo
3 francesco
4 luigi
如果需要指定列来检查重复项:
df = df.drop_duplicates(subset=['a'])
print (df)
a
0 pippo
1 giacomo
3 francesco
4 luigi
对于不同的输出 - numpy array
使用unique
:
arr = df['a'].unique()
print (arr)
['pippo' 'giacomo' 'francesco' 'luigi']
L = df['a'].unique().tolist()
print (L)
['pippo', 'giacomo', 'francesco', 'luigi']