Question

我是Python的初学者。我有大约1000个CSV文件（1.csv，2.csv .... 1000.csv）。每个CSV文件约有3,000,000,000行和14个变量。我想先对每个CSV文件使用相同的过程来清理每个CSV文件中的数据：

将变量A和变量B相加，
按排序日期对C进行计数，如果C中一天的记录数大于50，则将其删除。

接下来，将清理后的数据保存到新的CSV文件中。最后，将所有1000个新CSV文件附加到一个CSV文件中。

我有一些代码，如下所示，但是它首先导入所有CSV文件，然后处理以清理数据，这效率很低。我想先清除每个CSV文件中的数据，然后附加新的CSV文件。谁可以帮我这个事？任何帮助将不胜感激。

Answer 1

从您的问题中我了解到这一点。我阅读了所有文件，并为求和添加了新列。然后，我对日期进行排序并删除大于50的C的任何值。此后，我保存更新。在执行此操作之前，您必须复制原始文件，或者可以使用其他文件名保存它们。

library(tidyverse)
Graphdata %>% 
  gather("MySite","MyValue",3:ncol(.)) %>% 
  filter(Sites=="A") %>% 
  ggplot(aes(`f`,MyValue,col=MySite))+geom_point()+geom_line()

对多个csv文件重复相同的过程

1 个答案: