使用pyspark对大型二进制文件进行分区

时间:2018-10-04 06:28:13

标签: apache-spark pyspark binaryfiles

尝试使用PySpark处理大型二进制文件,但始终出现OutofMemoryError。尝试了所有可能的方式,例如增加执行程序/驱动程序的内存,对rdd进行分区。单个大的二进制文件会在spark中进行分区吗?如果没有,我们如何处理二进制文件。我当前使用的二进制文件超过2GB。

0 个答案:

没有答案