我想通过更改文件格式来量化节省的空间。
我在文本文件中存储了稀疏矩阵(30%稀疏度)。列由制表符分隔。
在idea in an SO answer之后,我将格式更改为row_id,col_id仅用于非零项。我知道浮点数需要多少空间,但我的问题是:标签占用了多少空间?
答案 0 :(得分:1)
1个字节,但如果您使用压缩(基于它们的常见程度,平均不到一点),则会显着减少。使用压缩。
答案 1 :(得分:1)
CouchDeveloper在他的评论中是正确的。从您提供的数据中无法判断。
在单字节字符集编码中,您将从当前","每个分隔符保存1个字节。
在多字节编码中,它取决于每个字符编码的方式,理论上甚至可以丢失空间。假设一个标签被编码为4个字节,逗号和空格分别为1,你最终每个分隔符需要多2个字节。
除非您有很多分隔符和相对非常少的数据,否则我不会担心这种情况,它只是微优化。
如果这样做,二进制编码方案可能更相关。