合并两个pd.DataFrames并检查重复的数据(“ lastname”,“ name”)

时间:2019-01-26 22:19:30

标签: pandas python-3.7

我有多个包含地址的.xlsx或.xls文件。 有时,这些列表有多个工作表。 我的python脚本首先读取所有excel列表及其工作表,然后将其附加到gheter。

    excel_files = [f for f in files if f[-3:] == 'xls' or f[-4:] == 'xlsx'] 
    for excel_file in excel_files: 
         excel_obj = pd.ExcelFile(INPUTFOLDER+excel_file) 
         sheetnames = excel_obj.sheet_names 
         for sheets in sheetnames: 
              sheet_data = pd.read_excel(INPUTFOLDER+excel_file,         
              sheet_name=sheets) 
              df = df.append(sheet_data,sort=False)

此步骤后,我有以下列:

Index(['Land', 'Firma', 'Anrede', 'Vorname', 'Nachname','Straße', 'PLZ','Ort', 'Briefanrede', 'Name'],dtype='object')

现在,我得到了重复的列。 “姓氏”和“名称”包含姓氏。 所以下一步就是检查并将其附加到gheter。

if 'Name' and 'Nachname' or 'Lastname' and 'Name' or 'lastname' and 'name' in df.columns:

但是我不知道如何将它们放到烤架上并删除剩余的空列。 我将在Google工作表中提供一个示例:

example excel sheet

0 个答案:

没有答案