如何估算pyspark中的数据帧实际大小?

时间:2016-05-06 16:38:51

标签: python apache-spark dataframe spark-csv

如何确定数据框大小?

现在我估计数据帧的实际大小如下:

headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size

太慢了,我正在寻找更好的方法。

2 个答案:

答案 0 :(得分:12)

来自Tamas Szuromi http://metricbrew.com/how-to-estimate-rdd-or-dataframe-real-size-in-pyspark/

的好帖子
from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_java_object_rdd(rdd):  
    """ Return a JavaRDD of Object by unpickling
    It will convert each Python object into Java object by Pyrolite, whenever the
    RDD is serialized in batch or not.
    """
    rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
    return rdd.ctx._jvm.org.apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)

JavaObj = _to_java_object_rdd(df.rdd)

nbytes = sc._jvm.org.apache.spark.util.SizeEstimator.estimate(JavaObj)

答案 1 :(得分:5)

目前我正在使用以下方法,不确定这是否是最佳方式

df.persist(StorageLevel.Memory) df.count()

在“存储”选项卡下的spark-web ui中,您可以检查以MB显示的大小,然后我会取消选择以清除内存。

df.unpersist()