Question

我有一个数据集，其中特定行中的所有值都有重复的行，其中第二行中缺少值。

如何在python中编写代码以查找数据集中的重复记录？ Original Dataset Required Output

Answer 1

Pandas drop_duplicates（）方法有助于从数据框中删除重复项。

语法： DataFrame.drop_duplicates（subset = None，keep =‘first'，inplace = False）

而且，Pandas dropna（）方法允许用户以n种方式分析和删除具有Null值的行/列。

语法： DataFrameName.dropna（axis = 0，how ='any'，thresh = None，subset = None，inplace = False）

Answer 2

第一个sort_values包含包含Null值的列

使用drop_duplicates并提供列FileNo

df.sort_values(by=['FileNo','Coverage'],ascending=[True,True],inplace=True,na_position='last')

df.drop_duplicates(subset=['FileNo'],inplace=True)

Answer 3

Get-ChildItem *.* -File  -Recurse | 
    Move-Item -Destination {$_.FullName -replace 'Default','VOD'} -Force