使用Python在Spark中查询和解析JSON Hive列

时间:2017-07-06 10:03:08

标签: json hive pyspark

我尝试使用Pyspark查询Hive表。

我在这个表中有一个JSON列,我想知道如何正确加载它以便解析它。

from pyspark.sql import HiveContext
hive_context = HiveContext(sc)
query = hive_context.sql("SELECT json_column FROM 
table")
df1 = sqlContext.jsonRDD(query)
df1.first()

现在它显示了json文件,但提到" _corrupt_record "。

0 个答案:

没有答案