Question

我正在尝试在Python中构建一些代码，将列中的多个值分隔成单独的行，并根据时间戳的同一天聚合Active-Ticket的列，是否可以使用任何内部库或我需要安装外部库吗？

我的示例文件（目前，Active-Tickets列为空）：

Input.csv

Timestamp,CaseID,Active-Tickets   
14FEB2017:10:55:23,K456 G578 T213,        
13FEB2017:10:56:12,F891 A63,
14FEB2017:11:59:14,T427 T31212 F900000,
15FEB2017:03:55:23,K456 G578 T213,        
14FEB2017:05:56:12,F891 A63,

我想要实现的目标：

Output.csv

Timestamp,CaseID,Active-Tickets
14FEB2017:10:55:23,K456,8 (because there are 8 cases happened on the same day)
14FEB2017:10:55:23,G578,8
14FEB2017:10:55:23,T213,8        
13FEB2017:10:56:12,F891,2 (because there are 2 cases happened on the same day)
13FEB2017:10:56:12,A63,2
14FEB2017:11:59:14,T427,8
14FEB2017:11:59:14,T31212,8
14FEB2017:11:59:14,F900000,8
15FEB2017:03:55:23,K456,3 (because there are 3 cases happened on the same day)
15FEB2017:03:55:23,G578,3
15FEB2017:03:55:23,T213,3        
14FEB2017:05:56:12,F891,8
14FEB2017:05:56:12,A63,8

我的想法是：

获取列Timestamp

的值

检查日期是否相同，



将按空格分隔的所有CaseID存储到基于日期的列表中



计算每个日期列表中的元素数量



将计算元素的值返回到Active-Tickets。

但问题是，数据量不小，假设一天中最少有50个案例，那么我认为我的方式是不可能的。

Answer 1

以下是使用itertools.chain.from_iterable()执行此操作的一种方法。它只会将计数保留在内存中，因此可能适用于您的情况。它会两次读取csv文件。一旦得到计数，一次写入输出，但只使用迭代器进行读取，所以应该保持内存需求下降。

<强>代码：

import csv
import itertools as it
from collections import Counter

# read through file and get counts per date
with open('test.csv', 'rU') as f:
    reader = csv.reader(f)
    header = next(reader)
    dates = it.chain.from_iterable(
        [date for _ in ids.split()]
        for date, ids in ((x[0].split(':')[0], x[1]) for x in reader))
    counts = Counter(dates)

# read through file again, and output as individual records with counts
with open('test.csv', 'rU') as f:
    reader = csv.reader(f)
    header = next(reader)
    records = it.chain.from_iterable(
        [(l[0], d) for d in l[1].split()] for l in reader)
    new_lines = (l + (str(counts[l[0].split(':')[0]]), ) for l in records)

    with open('test2.csv', 'wb') as f_out:
        writer = csv.writer(f_out)
        writer.writerow(header)
        writer.writerows(new_lines)

<强>结果：

Timestamp,CaseID,Active-Tickets
14FEB2017:10:55:23,K456,8
14FEB2017:10:55:23,G578,8
14FEB2017:10:55:23,T213,8
13FEB2017:10:56:12,F891,2
13FEB2017:10:56:12,A63,2
14FEB2017:11:59:14,T427,8
14FEB2017:11:59:14,T31212,8
14FEB2017:11:59:14,F900000,8
15FEB2017:03:55:23,K456,3
15FEB2017:03:55:23,G578,3
15FEB2017:03:55:23,T213,3
14FEB2017:05:56:12,F891,8
14FEB2017:05:56:12,A63,8

计数器在2.6

collections.Counter已经被移植到python 2.5+（Here）

在csv文件中创建一个重复行以分隔列中的多个值（python）

1 个答案: