对多个csv文件重复相同的过程

时间:2018-12-23 04:37:19

标签: python loops csv

我是Python的初学者。我有大约1000个CSV文件(1.csv,2.csv .... 1000.csv)。每个CSV文件约有3,000,000,000行和14个变量。我想先对每个CSV文件使用相同的过程来清理每个CSV文件中的数据:

  1. 将变量A和变量B相加,
  2. 按排序日期对C进行计数,如果C中一天的记录数大于50,则将其删除。

接下来,将清理后的数据保存到新的CSV文件中。最后,将所有1000个新CSV文件附加到一个CSV文件中。

我有一些代码,如下所示,但是它首先导入所有CSV文件,然后处理以清理数据,这效率很低。我想先清除每个CSV文件中的数据,然后附加新的CSV文件。谁可以帮我这个事?任何帮助将不胜感激。

enter image description here

1 个答案:

答案 0 :(得分:1)

从您的问题中我了解到这一点。我阅读了所有文件,并为求和添加了新列。然后,我对日期进行排序并删除大于50的C的任何值。此后,我保存更新。在执行此操作之前,您必须复制原始文件,或者可以使用其他文件名保存它们。

library(tidyverse)
Graphdata %>% 
  gather("MySite","MyValue",3:ncol(.)) %>% 
  filter(Sites=="A") %>% 
  ggplot(aes(`f`,MyValue,col=MySite))+geom_point()+geom_line()