我尝试使用python 2.7逐月识别新的和终止的事务。
我有一个大小为2-3GB的.csv包含4个月,所以我正在寻找尽可能快的解决方案,而不是将大字典放在内存中并迭代它们。在这个csv中,数据看起来像这样:
date,uniqueID,highLevelClientDetail
我想知道如何输出每个月总数的摘要统计信息(续uniqueID,终止,新)。 编辑:如果继续唯一ID是指在第1个月和第2个月出现的ID,则终止意味着它出现在第1个月但不是2个,新的是指它出现在第2个月而不是第1个月
通常情况下,我会把它放到一个统计软件中并用2行进行,但我只限于使用python并且从未以这种方式使用它。