我使用pandas将大型数据集(510,000行)导出为CSV和JSON以进行比较。两个文件都包含相同的数据集。
-rw-r--r-- 1 ****** staff 187584246 Jun 24 16:23 case_06-24-16_16-14.csv
-rw-r--r-- 1 ****** staff 14026640 Jun 24 16:24 case_06-24-16_16-14.csv.zip
-rw-r--r-- 1 ****** staff 159802082 Jun 24 16:23 case_06-24-16_16-14.json
-rw-r--r-- 1 ****** staff 13985789 Jun 24 16:23 case_06-24-16_16-14.json.zip
我的CSV怎么可能比我的JSON文件大?
答案 0 :(得分:1)
如果你展示一些csv和json行会更容易。我的猜测是,用于分隔值的字符在两个文件中是不同的,这就是你看到文件大小不同的原因。
关于这个答案唯一的问题就是我希望json更大。
A;B;C
1;2;3
4;5;6
2x3 =用于分隔值的6个字符
A:[1,4],
B:[2,5],
C:[3,6]
5x2 + 4 =用于分隔值的14个字符
这就是为什么如果我们对文件的结构有所了解会更容易。
答案 1 :(得分:-2)
JSON 这是一个人类可读的文件。它没有优化。
简而言之, JSON 文件将使用更多字符和元素来表示与 csv 相同的数据。
Csv 的想法已经过优化,可以移动数据。
E.G:
A;B;C
1;2;3
4;5;6
2x3 = 6 characters used to separate the values
A:[1,4],
B:[2,5],
C:[3,6]
5x2 + 4 = 14 characters used to separate the values