拆分,合并,排序CSV

时间:2013-10-28 22:58:37

标签: python python-2.7

我有几个包含来自多个传感器的测量结果的CSV文件

s1.CSV:

date;hour;source;values
01/25/12;10:20:00;a; 88 -84 27
01/25/12;10:30:00;a; -80
01/25/12;10:50:00;b; -96 3 -88
01/25/12;09:00:00;b; -97 101
01/25/12;09:10:00;c; 28

s2.CSV:

date;hour;source;values
01/25/12;10:20:00;a; 133
01/25/12;10:25:00;a; -8 -5

我想按来源(a / b / c)创建一个CSV,每个度量按分隔列按日期和小时排序

a.CSV:

date;hour;source;s1;s2
01/25/12;10:20:00;a; 88 -84 27; 133
01/25/12;10:25:00;a; ; -8 -5
01/25/12;10:30:00;a; -80;

...

我被困在这里:

import glob
import csv
import os
os.system('cls')

sources = dict()
sensor = 0

filelist = glob.glob("*.csv")

for f in filelist:
    reader = csv.DictReader(open(f),delimiter=";")
    for row in reader:
#       date = row['date'] # date later
        hour = row['hour']
        val = row['values']
        source = row['source']

        if not sources.has_key(source): # new source
            sources[source] = list()
#       
        sources[source].append({'hour':hour, 'sensor'+`sensor`:val})

    sensor+=1

我不确定数据结构是否适合排序。我也像重复列名一样。

2 个答案:

答案 0 :(得分:3)

使用您提供的数据,我使用Pandas制作了一些东西。请参阅下面的代码。

由于hoursource在一列中重复,因此授予的输出是不理想的。在我学习的同时,我也欢迎任何有关Pandas是否可以做OP所要求的专家意见!

In [1]: import pandas as pd

In [2]: s1 = pd.read_csv('s1.csv', delimiter=';', parse_dates=True)

In [3]: s1
Out[3]: 
       date      hour source      values
0  01/25/12  10:20:00      a   88 -84 27
1  01/25/12  10:30:00      a         -80
2  01/25/12  10:50:00      b   -96 3 -88
3  01/25/12  09:00:00      b     -97 101
4  01/25/12  09:10:00      c          28

In [4]: s2 = pd.read_csv('s2.csv', delimiter=';', parse_dates=True)

In [5]: s2
Out[5]: 
       date      hour source  values
0  01/25/12  10:20:00      a     133
1  01/25/12  10:25:00      a   -8 -5

In [6]: joined = s1.append(s2)

In [7]: joined
Out[7]: 
       date      hour source      values
0  01/25/12  10:20:00      a   88 -84 27
1  01/25/12  10:30:00      a         -80
2  01/25/12  10:50:00      b   -96 3 -88
3  01/25/12  09:00:00      b     -97 101
4  01/25/12  09:10:00      c          28
0  01/25/12  10:20:00      a         133
1  01/25/12  10:25:00      a       -8 -5

In [8]: grouped = joined.groupby('hour').sum() 

In [9]: grouped.to_csv('a.csv')

In [10]: grouped
Out[10]: 
                      date source          values
hour                                             
09:00:00          01/25/12      b         -97 101
09:10:00          01/25/12      c              28
10:20:00  01/25/1201/25/12     aa   88 -84 27 133
10:25:00          01/25/12      a           -8 -5
10:30:00          01/25/12      a             -80
10:50:00          01/25/12      b       -96 3 -88

答案 1 :(得分:2)

如果我理解正确,你有多个文件,每个文件对应一个给定的“传感器”,文件名中包含传感器的标识。您想要读取文件,然后再将它们写入单独的文件中,这一次除以“源”,将来自不同传感器的数据合并为几个最终行。

以下是我认为您想要做的事情:

  1. 读入数据,并构建嵌套字典数据结构,如下所示:
  2. 顶级密钥将是来源(例如'a')。
  3. 第二级将由(date, time)元组键入。
  4. 最内层将由传感器键入,取自文件名,并将实际传感器读数作为值。
  5. 您还想跟踪所有已经看过的传感器。
  6. 要写出数据,您将遍历最外层字典的项目,为每个字典创建一个新的输出文件。
  7. 每个文件的行将通过排序下一个字典的键来确定。
  8. 每行的最后一个值将通过连接最里面的dict的值来形成,为任何缺失值填充空字符串。
  9. 以下是一些代码:

    from collections import defaultdict
    from datetime import datetime
    import csv
    import glob
    import os
    
    # data structure is data[source][date, time][sensor] = value, with "" as default value
    data = defaultdict(lambda: defaultdict(lambda: defaultdict(str)))
    sensors = []
    
    filelist = glob.glob("*.csv")
    
    # read old files
    for fn in filelist:
        sensor = os.path.splitext(fn)[0]
        sensors.append(sensor)
        with open(fn, 'rb') as f:
            reader = csv.DictReader(f, delimiter=";")
            for row in reader:
                date = datetime.strptime(row['date'], '%m/%d/%y')
                data[row['source']][date, row['hour']][sensor] = row['values']
    
    sensors.sort() # note, this may not give the best sort order
    header = ['date', 'hour', 'source'] + sensors
    
    for source, source_data in data.iteritems():
        fn = "{}.csv".format(source)
        with open(fn, 'wb') as f:
            writer = csv.writer(f, delimiter=";")
            writer.writerow(header)
            for (date, time), hour_data in sorted(source_data.items()):
                values = [hour_data[sensor] for sensor in sensors]
                writer.writerow([date.strftime('%m/%d/%y'), time, source] + values)
    

    我只将日期字段转换为内部类型,因为否则基于日期的排序将无法正常工作(2013年1月的日期将出现在2012年2月的日期之前)。将来,请考虑使用ISO 8601样式日期格式化YYYY-MM-DD,它可以安全地排序为字符串。其余值仅作为没有解释的字符串处理。

    代码假定sensor值可以按字典顺序排序。如果您只有少数几个,例如s1s2。但是,如果您有s10,则会在s2之前排序。要解决这个问题,你需要一个“自然”排序,这比我在这里解决的要复杂得多(但请参阅this recent question了解更多信息)。

    最后一个警告:如果你在同一个文件夹中多次运行它,这个解决方案可能会做坏事。那是因为输出文件,例如再次运行时,a.csv会将glob.glob('*.csv')视为输入文件。