我使用spark.read.json(RDD)读取一个非常大的RDD [String],它是json格式的。
这导致OutOfMemory错误。我试过增加执行程序/驱动程序内存。以及增加num-Executors。
是否有从JSON字符串的RDD创建Dataframe的替代方法?
答案 0 :(得分:0)
我认为您可以使用spark.createDataFrame(RDD)
方法,然后使用sql.functions
from_json(e: Column, schema: String, options: Map[String, String]): Column
方法处理json字符串