.csv文件大小的较大差异

时间:2019-05-08 08:00:37

标签: r csv

我有两个.csv文件:

  • 具有32075892行的表A,耗时2023365kb
  • 具有21383928行的表B,仅需1051836kb

两个表的列数相同,内容大致相同(一个ID,一个整数,一个短字符串(总是相同的大小),一个数字,另一个字符串)。唯一的不同是,对于表A,最后一列的String值稍长:与9相比,平均为26.83个字符。

我从R中的data.table包中读取和写入了两个.csv文件,并带有fread和fwrite。

表A的行比B多50%,但文件大小占空间的两倍。文件大小差异很大的原因是什么?

1 个答案:

答案 0 :(得分:1)

您可以计算两个文件的平均记录长度:

    int recordLengthFile1= (2023365 * 1024) / 32075892; 
    int recordLengthFile2= (1051836 * 1024) / 21383928 ;

这使记录长度分别为 64 50 ,相差14,这与文件中最后两个字段之间的差26.83-9 = 17.83