计算来自RDD的不同用户

时间:2019-09-13 10:21:46

标签: pyspark rdd pyspark-sql

我有一个使用textFile加载到程序中的json文件。我想计算json数据中不同用户的数量。我无法转换为DataFrame或Dataset。我尝试了以下代码,它给了我一些Java EOF错误。

jsonFile = sc.textFile('some.json')
dd = jsonFile.filter(lambda x: x[1]).distinct().count()
# 2nd column is user ID coulmn

样本数据

{"review_id":"Q1sbwvVQXV2734tPgoKj4Q","user_id":"hG7b0MtEbXx5QzbzE6C_VA","business_id":"ujmEBvifdJM6h6RLv4wQIg","stars":1.0,text":"Total bill for this horrible service? Over $8Gs","date":"2013-05-07 04:34:36"}

1 个答案:

答案 0 :(得分:0)

使用:

spark.read.json(Json_File, multiLine=True)

直接将json读入数据框

根据文件要求将multiLine设置为True和False