Question

我正在研究熊猫，散景等，以开始使用数据虚拟化。现在，我正在一张装有不同鸟类的巨型桌子上练习。有很多专栏。其中两列为“科学名称”，另一列为“观察数”。我想提取这两列。

我做到了

df2 = df[["SCIENTIFIC NAME" , "OBSERVATION COUNT"]]

但是问题是，每个条目都在表内（因为有时由于相同的科学名称的其他列，会有多个条目/行，但是科学名称的OBSERVATION COUNT始终相同）

我如何获得具有唯一值的这两个部门，因此每个科学名称一次，并具有相应的观察计数。

编辑：我刚刚意识到，有时由于另一列，相同的科学名称有时具有不同的观测值。有没有一种方法可以从列中提取每个第一个唯一项目

Answer 1

IIUC，您可以使用drop_duplicates：

df2 = df[["SCIENTIFIC NAME" , "OBSERVATION COUNT"]].drop_duplicates()

要获取计数：

df2 = df.groupby(["SCIENTIFIC NAME" , "OBSERVATION COUNT"])["SCIENTIFIC NAME"].count()