我尝试使用Pyspark查询Hive表。
我在这个表中有一个JSON列,我想知道如何正确加载它以便解析它。
from pyspark.sql import HiveContext
hive_context = HiveContext(sc)
query = hive_context.sql("SELECT json_column FROM
table")
df1 = sqlContext.jsonRDD(query)
df1.first()
现在它显示了json文件,但提到" _corrupt_record "。