火花读json卡在加载文件上1G

时间:2017-12-13 07:09:07

标签: pyspark

当我尝试从1G加载JSON文件时,该进程将永远运行而不会抛出任何异常。

dump=spark.read.json("hdfs://ip-000-00-0-000.aws.foobar.com:8020/user/hadoop/mixpanel-event2017-12-11a2.txt")

我正在使用: Spark - 2.0.2, 大师 - m4.4xlarge 核心 - 4m4.4xlarge 在Pyspark上运行

1 个答案:

答案 0 :(得分:0)

听起来你需要更多的记忆。 (Spark默认驱动程序内存为1G)