应用错误收集

使用Python在Spark中查询和解析JSON Hive列

时间：2017-07-06 10:03:08

标签： json hive pyspark

我尝试使用Pyspark查询Hive表。

我在这个表中有一个JSON列，我想知道如何正确加载它以便解析它。

from pyspark.sql import HiveContext
hive_context = HiveContext(sc)
query = hive_context.sql("SELECT json_column FROM 
table")
df1 = sqlContext.jsonRDD(query)
df1.first()

现在它显示了json文件，但提到＆＃34; _corrupt_record ＆＃34;。

0 个答案:

没有答案