Spark:使用read.json()读取一个非常大的RDD [String]

时间:2017-05-17 21:46:00

标签: apache-spark spark-dataframe

我使用spark.read.json(RDD)读取一个非常大的RDD [String],它是json格式的。

这导致OutOfMemory错误。我试过增加执行程序/驱动程序内存。以及增加num-Executors。

是否有从JSON字符串的RDD创建Dataframe的替代方法?

1 个答案:

答案 0 :(得分:0)

我认为您可以使用spark.createDataFrame(RDD)方法,然后使用sql.functions

from_json(e: Column, schema: String, options: Map[String, String]): Column方法处理json字符串