我有两个.csv文件:
两个表的列数相同,内容大致相同(一个ID,一个整数,一个短字符串(总是相同的大小),一个数字,另一个字符串)。唯一的不同是,对于表A,最后一列的String值稍长:与9相比,平均为26.83个字符。
我从R中的data.table包中读取和写入了两个.csv文件,并带有fread和fwrite。
表A的行比B多50%,但文件大小占空间的两倍。文件大小差异很大的原因是什么?
答案 0 :(得分:1)
您可以计算两个文件的平均记录长度:
int recordLengthFile1= (2023365 * 1024) / 32075892;
int recordLengthFile2= (1051836 * 1024) / 21383928 ;
这使记录长度分别为 64 和 50 ,相差14,这与文件中最后两个字段之间的差26.83-9 = 17.83