当我尝试从1G加载JSON文件时,该进程将永远运行而不会抛出任何异常。
dump=spark.read.json("hdfs://ip-000-00-0-000.aws.foobar.com:8020/user/hadoop/mixpanel-event2017-12-11a2.txt")
我正在使用: Spark - 2.0.2, 大师 - m4.4xlarge 核心 - 4m4.4xlarge 在Pyspark上运行
答案 0 :(得分:0)
听起来你需要更多的记忆。 (Spark默认驱动程序内存为1G)