标签: apache-spark pyspark binaryfiles
尝试使用PySpark处理大型二进制文件,但始终出现OutofMemoryError。尝试了所有可能的方式,例如增加执行程序/驱动程序的内存,对rdd进行分区。单个大的二进制文件会在spark中进行分区吗?如果没有,我们如何处理二进制文件。我当前使用的二进制文件超过2GB。