我有一个使用textFile加载到程序中的json文件。我想计算json数据中不同用户的数量。我无法转换为DataFrame或Dataset。我尝试了以下代码,它给了我一些Java EOF错误。
jsonFile = sc.textFile('some.json')
dd = jsonFile.filter(lambda x: x[1]).distinct().count()
# 2nd column is user ID coulmn
样本数据
{"review_id":"Q1sbwvVQXV2734tPgoKj4Q","user_id":"hG7b0MtEbXx5QzbzE6C_VA","business_id":"ujmEBvifdJM6h6RLv4wQIg","stars":1.0,text":"Total bill for this horrible service? Over $8Gs","date":"2013-05-07 04:34:36"}
答案 0 :(得分:0)
使用:
spark.read.json(Json_File, multiLine=True)
直接将json读入数据框
根据文件要求将multiLine设置为True和False