我的数据是在一个包含数百万行和多列的csv文件中组织的。这个文件很大,可以一次读入内存。
幸运的是,我只想计算一些统计数据,比如每100行的每列的平均值等等。我的解决方案,基于其他帖子,使用read.csv2选项nrow和skip。这很有效。
但是,我意识到从文件末尾加载时这个过程非常慢。据我所知,读者似乎已经通过该文件,直到它通过我所说的跳过然后读取的所有行。当然,这是次优的,因为它每次都在读取初始线。
是否有解决方案,如python解析器,我们可以逐行读取文件,在需要时停止,然后继续?并保持read.csv2的简单阅读简单性?