我一直在使用熊猫,但是愿意接受所有建议,我不是脚本专家,但是完全不知所措。我的目标是:
Screenshot of how merged dataset looks like
在第一组后删除重复的“ GEO”列。这最后一部分不让我使用df = df.loc[:,~df.columns.duplicated()]
,因为它们在技术上没有重复。重复的列名以.1,.2等结尾。因为我猜连接将添加此。另一个问题是某些列具有重复的列名,但是是不同的数据集。我一直将第一行用作索引,因为它始终是相同的编码值,但是此行是不必要的,以后将在脚本中删除。这是我目前最大的问题。
删除某些列,例如带有“边距”的列。我为此使用~df2.columns.str.startswith
,对此没有任何问题。
source = excel.Workbooks.Open(filename)
excel.Range("C1:C1337").Select()
excel.Selection.Copy()
excel.Selection.PasteSpecial(Paste=constants.xlPasteValues)
不知道它是否有效,并且想知道是否可以在pandas,win32com中使用,否则我应该留在openpyxl上。谢谢大家!