查找干净的数据集的重复记录和子集

时间:2019-08-16 04:40:34

标签: pandas

我有一个数据集,其中特定行中的所有值都有重复的行,其中第二行中缺少值。

如何在python中编写代码以查找数据集中的重复记录? Original Dataset Required Output

3 个答案:

答案 0 :(得分:1)

Pandas drop_duplicates()方法有助于从数据框中删除重复项。

语法: DataFrame.drop_duplicates(subset = None,keep =‘first',inplace = False)

请参考: https://www.geeksforgeeks.org/python-pandas-dataframe-drop_duplicates/

而且,Pandas dropna()方法允许用户以n种方式分析和删除具有Null值的行/列。

语法: DataFrameName.dropna(axis = 0,how ='any',thresh = None,subset = None,inplace = False)

请参考: https://www.geeksforgeeks.org/python-pandas-dataframe-dropna/

答案 1 :(得分:1)

第一个sort_values包含包含Null值的列

使用drop_duplicates并提供列FileNo

df.sort_values(by=['FileNo','Coverage'],ascending=[True,True],inplace=True,na_position='last')

df.drop_duplicates(subset=['FileNo'],inplace=True)

答案 2 :(得分:0)

Get-ChildItem *.* -File  -Recurse | 
    Move-Item -Destination {$_.FullName -replace 'Default','VOD'} -Force