在Python中合并和清理CSV文件

时间:2019-03-25 20:53:29

标签: python excel

我一直在使用熊猫,但是愿意接受所有建议,我不是脚本专家,但是完全不知所措。我的目标是:

  • 合并多个CSV文件。能够在Pandas中做到这一点,并具有一个合并了数据集的数据框。

Screenshot of how merged dataset looks like

  • 在第一组后删除重复的“ GEO”列。这最后一部分不让我使用df = df.loc[:,~df.columns.duplicated()],因为它们在技术上没有重复。重复的列名以.1,.2等结尾。因为我猜连接将添加此。另一个问题是某些列具有重复的列名,但是是不同的数据集。我一直将第一行用作索引,因为它始终是相同的编码值,但是此行是不必要的,以后将在脚本中删除。这是我目前最大的问题。

  • 删除某些列,例如带有“边距”的列。我为此使用~df2.columns.str.startswith,对此没有任何问题。

  • 替换空格“:”和“;”第一行带有下划线。我不知道该怎么做。
  • 插入一个新列,编写'= TEXT(B1,0)'公式,对整个列执行此操作(公式将更改为B2,B3等),复制该列并粘贴为值。尽管遇到了麻烦,但我还是可以在openpyxl中执行此操作,并且由于excel麻烦而无法尝试最终输出。 source = excel.Workbooks.Open(filename) excel.Range("C1:C1337").Select() excel.Selection.Copy() excel.Selection.PasteSpecial(Paste=constants.xlPasteValues) 不知道它是否有效,并且想知道是否可以在pandas,win32com中使用,否则我应该留在openpyxl上。谢谢大家!

0 个答案:

没有答案