为什么Java序列化占用了这么多空间?

时间:2015-06-10 03:52:01

标签: java serialization

我尝试序列化Byte和Integer的实例,但是当他们收到另一端的空间时,他们感到震惊。为什么只需要4个字节来生成一个Integer,但它在序列化时占用的字节数是10多倍?我的意思是在C ++中,final类具有64位类标识符及其内容。关闭那个逻辑,我希望整数在序列化时占用64 + 32或96位。

import java.io.*;

public class Test {
    public static void main (String[] ar) throws Exception {
        ByteArrayOutputStream bos = new ByteArrayOutputStream();
        ObjectOutput out = new ObjectOutputStream(bos);   
        out.writeObject(new Integer(32));
        byte[] yourBytes = bos.toByteArray();
        System.out.println("length: " + yourBytes.length + " bytes");
    }
}

输出:

长度:81字节

更新

public static void main(String[] args) throws IOException {

    {
    ByteArrayOutputStream bos1 = new ByteArrayOutputStream();
    ObjectOutput out1 = new ObjectOutputStream(bos1);
    out1.writeObject(new Boolean(false));
    byte[] yourBytes = bos1.toByteArray();
    System.out.println("1 Boolean length: " + yourBytes.length);
    }

    ByteArrayOutputStream bos = new ByteArrayOutputStream();
    ObjectOutput out = new ObjectOutputStream(bos);
    for (int i = 0; i < 1000; ++i) {
        out.writeObject(new Boolean(true)); // 47 bytes
    }
    byte[] yourBytes = bos.toByteArray();
    System.out.println("1000 Booleans length: " + yourBytes.length); // 7040 bytes

    final int count = 1000;

    ArrayList<Boolean> listBoolean = new ArrayList<>(count);
    listBoolean.addAll(Collections.nCopies(count, Boolean.TRUE));
    System.out.printf("ArrayList: %d%n", sizeOf(listBoolean)); // 5096 bytes

    Boolean[] arrayBoolean = new Boolean[count];
    Arrays.fill(arrayBoolean, true);
    System.out.printf("Boolean[]: %d%n", sizeOf(arrayBoolean)); // 5083 bytes

    boolean[] array = new boolean[count];
    Arrays.fill(array, true);
    System.out.printf("boolean[]: %d%n", sizeOf(array)); // 1027 bytes

    BitSet bits = new BitSet(count);
    bits.set(0, count);
    System.out.printf("BitSet: %d%n", sizeOf(bits)); // 201 bytes
}

static int sizeOf(Serializable obj) throws IOException {
    ByteArrayOutputStream bytesOut = new ByteArrayOutputStream();
    ObjectOutputStream objsOut = new ObjectOutputStream(bytesOut);
    objsOut.writeObject(obj);
    return bytesOut.toByteArray().length;
}

输出:

1布尔长度:47(每个布尔47个字节)

1000个布尔长度:7040(每个布尔值7个字节)

ArrayList:5096(每个布尔值5个字节)

Boolean []:5083(每个布尔值5个字节)

boolean []:1027(每个布尔值1个字节)

BitSet:201(每布尔1字节的1/5)

2 个答案:

答案 0 :(得分:4)

虽然Radiodef澄清了为什么序列化对象的大小很大,但我想在这里提出另一点,所以我们不要忘记底层java的序列化算法中存在的优化(几乎在所有算法)。

当你编写另一个Integer对象(或任何已经写入的对象)时,在这种情况下你看不到类似的大小(我的意思是大小不会是81 * 2 = 162字节),

ObjectOutput out = new ObjectOutputStream(bos);   
out.writeObject(new Integer(32));
out.writeObject(new Integer(65));
byte[] yourBytes = bos.toByteArray();
System.out.println("length: " + yourBytes.length + " bytes");

它的工作方式是,当第一次请求类的实例(对象)进行序列化时,它会写入有关整个类的信息。即包括类名,它会写出类中存在的每个字段的名称。这就是为什么字节数更多的原因。这基本上是为了正确处理类评估案例。

虽然它第一次发送类的元数据,但它也将相同的信息缓存到名为value-cache或indirection table的本地缓存中。因此,下次请求同一类的另一个实例进行序列化时(请记住缓存仅适用于流级别,或者在调用reset()之前),它只会写入一个标记(只有4个字节的信息),以便大小会少一些。

答案 1 :(得分:2)

MINdef addvec(mat,vec): for i in vec.nonzero()[1]: mat[:,i] = sp.csc_matrix(mat[:,i].todense() + vec[0,i]) return mat 是对象,因此至少还需要存储其类的限定名称,以便对它们进行反序列化。此外,还需要存储java.lang.Byte等。我们可以很容易地看到这些额外信息如何快速膨胀。

如果您想了解序列化格式,可以在JavaWorld上找到一篇关于它的文章:http://www.javaworld.com/article/2072752/the-java-serialization-algorithm-revealed.html

如果您担心序列化数据的大小,请选择更紧凑的格式:

java.lang.Integer
serialVersionUID

Ideone上的示例。