我需要使用csv中用read.table
读取的一些数据库(逗号分隔值),我想知道如何计算每种变量的已分配内存的大小。
怎么做?
编辑 - 换句话说:从.csv
文件中读取的一般数据帧的R内存量是多少?
答案 0 :(得分:7)
您可以使用object.size
获取分配给对象的内存量。例如:
x = 1:1000
object.size(x)
# 4040 bytes
This script也可能有用 - 它可以让您查看或绘制所有当前对象使用的内存量。
在回答你为什么object.size(4)
为48字节的问题时,原因是每个数字向量都有一些开销。 (在R
中,数字4
不仅仅是其他语言中的整数 - 它是长度为1的数字向量。但这不会影响性能,因为开销不会随着向量的大小而增加。如果您尝试:
> object.size(1:100000) / 100000
4.0004 bytes
这表明每个整数本身只需要4个字节(正如您所期望的那样)。
因此,摘要:
对于长度为n
的数字向量,以字节为单位的大小通常为40 + 8 * floor(n / 2)
。但是,在我的R和OS版本中,只有一个轻微的不连续性,它比你预期的快了168个字节(见下图)。除此之外,线性关系仍然存在,甚至高达10000000的矢量。
plot(sapply(1:50, function(n) object.size(1:n)))
对于分类变量,您可以看到非常相似的线性趋势,但有更多的开销(见下文)。除了一些轻微的不连续性之外,这种关系非常接近400 + 60 * n
。
plot(sapply(1:100, function(n) object.size(factor(1:n))))