标签: python-2.7 apache-spark pyspark
我有一个.bin文件,想要对其进行分区并将其作为字节数组获取。但是使用map()并没有帮助我,当我得到整个数据的大小时,它不是我文件的大小(它大于文件的大小)
为了测试它,我遇到了其他问题,当我使用getNumPartitions()获取分区数时,1在输出中打印但在map()中使用的函数被称为多个。另一个问题是当总和每个分区的大小时,结果不是我文件的大小而是大于它(我在map()函数中使用sys.getsizeof()得到大小)
答案 0 :(得分:1)
对于固定尺寸,请查看https://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.binaryRecords