标签: python apache-spark apache-spark-sql pyspark
我正在加载许多版本的JSON文件来激发DataFrame。 一些文件包含A,B列 和一些A,B,C或A,C ..
如果我运行此命令
from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.sql("SELECT A,B,C FROM table")
加载几个后我可以得到错误“列不存在”我只加载了不保存列C的文件。 如何将此值设置为null而不是出错?
null