我有一个由州名和城市名组成的数据框。然而,城市名称不仅仅是匹兹堡,费城等。城市名称可能包含我称之为名誉的名称。这是一个小样本
onAttach(Activity activity)
我需要通过删除括号信息来清理这些数据。但我的问题是这个。塞西尔·B·摩尔和大学城都是费城的一部分。如果我重命名这些值,我的数据集中有两行宾夕法尼亚费城。我不希望这样。
所以从数据科学的角度来看,我可以简单地删除其中一行并在另一行中重命名RegionName值吗?或者在pandas中有一些方法可以在清理和重命名后“组合”这些行。
这些数据最终将按州和地区名称(城市)与住房价值结合。
谢谢
答案 0 :(得分:4)
只需摄取所有行,然后使用.drop_duplicates()
从数据框中删除重复的行。