pandas如何在重复行发生之前消除它们

时间:2016-11-18 17:04:56

标签: python pandas

我有一个由州名和城市名组成的数据框。然而,城市名称不仅仅是匹兹堡,费城等。城市名称可能包含我称之为名誉的名称。这是一个小样本

onAttach(Activity activity)

我需要通过删除括号信息来清理这些数据。但我的问题是这个。塞西尔·B·摩尔和大学城都是费城的一部分。如果我重命名这些值,我的数据集中有两行宾夕法尼亚费城。我不希望这样。

所以从数据科学的角度来看,我可以简单地删除其中一行并在另一行中重命名RegionName值吗?或者在pandas中有一些方法可以在清理和重命名后“组合”这些行。

这些数据最终将按州和地区名称(城市)与住房价值结合。

谢谢

1 个答案:

答案 0 :(得分:4)

只需摄取所有行,然后使用.drop_duplicates()从数据框中删除重复的行。