Question

我有多个包含地址的.xlsx或.xls文件。有时，这些列表有多个工作表。我的python脚本首先读取所有excel列表及其工作表，然后将其附加到gheter。

    excel_files = [f for f in files if f[-3:] == 'xls' or f[-4:] == 'xlsx'] 
    for excel_file in excel_files: 
         excel_obj = pd.ExcelFile(INPUTFOLDER+excel_file) 
         sheetnames = excel_obj.sheet_names 
         for sheets in sheetnames: 
              sheet_data = pd.read_excel(INPUTFOLDER+excel_file,         
              sheet_name=sheets) 
              df = df.append(sheet_data,sort=False)

此步骤后，我有以下列：

Index(['Land', 'Firma', 'Anrede', 'Vorname', 'Nachname','Straße', 'PLZ','Ort', 'Briefanrede', 'Name'],dtype='object')

现在，我得到了重复的列。 “姓氏”和“名称”包含姓氏。所以下一步就是检查并将其附加到gheter。

if 'Name' and 'Nachname' or 'Lastname' and 'Name' or 'lastname' and 'name' in df.columns:

但是我不知道如何将它们放到烤架上并删除剩余的空列。我将在Google工作表中提供一个示例：

example excel sheet

合并两个pd.DataFrames并检查重复的数据（“ lastname”，“ name”）

0 个答案: