Question

我有一个由州名和城市名组成的数据框。然而，城市名称不仅仅是匹兹堡，费城等。城市名称可能包含我称之为名誉的名称。这是一个小样本

onAttach(Activity activity)

我需要通过删除括号信息来清理这些数据。但我的问题是这个。塞西尔·B·摩尔和大学城都是费城的一部分。如果我重命名这些值，我的数据集中有两行宾夕法尼亚费城。我不希望这样。

所以从数据科学的角度来看，我可以简单地删除其中一行并在另一行中重命名RegionName值吗？或者在pandas中有一些方法可以在清理和重命名后“组合”这些行。

这些数据最终将按州和地区名称（城市）与住房价值结合。

谢谢

Answer 1

只需摄取所有行，然后使用.drop_duplicates()从数据框中删除重复的行。