我正在研究熊猫,散景等,以开始使用数据虚拟化。现在,我正在一张装有不同鸟类的巨型桌子上练习。有很多专栏。其中两列为“科学名称”,另一列为“观察数”。 我想提取这两列。
我做到了
df2 = df[["SCIENTIFIC NAME" , "OBSERVATION COUNT"]]
但是问题是,每个条目都在表内(因为有时由于相同的科学名称的其他列,会有多个条目/行,但是科学名称的OBSERVATION COUNT始终相同)>
我如何获得具有唯一值的这两个部门,因此每个科学名称一次,并具有相应的观察计数。
编辑:我刚刚意识到,有时由于另一列,相同的科学名称有时具有不同的观测值。有没有一种方法可以从列中提取每个第一个唯一项目
答案 0 :(得分:2)
IIUC,您可以使用drop_duplicates
:
df2 = df[["SCIENTIFIC NAME" , "OBSERVATION COUNT"]].drop_duplicates()
要获取计数:
df2 = df.groupby(["SCIENTIFIC NAME" , "OBSERVATION COUNT"])["SCIENTIFIC NAME"].count()