我有一个Hive查询,它以这种格式返回数据:
ip, category, score
1.2.3.4, X, 5
10.10.10.10, A, 2
1.2.3.4, Y, 2
12.12.12.12, G, 10
1.2.3.4, Z, 9
10.10.10.10, X, 3
在PySpark中,我通过hive_context.sql(my_query).rdd
每个IP地址可以具有多个分数(因此具有多个行)。我想以json / array格式获取此数据,如下所示:
{
"ip": "1.2.3.4",
"scores": [
{
"category": "X",
"score": 10
},
{
"category": "Y",
"score": 2
},
{
"category": "Z",
"score": 9
},
],
"ip": "10.10.10.10",
"scores": [
{
"category": "A",
"score": 2
},
{
"category": "X",
"score": 3
},
],
"ip": "12.12.12.12",
"scores": [
{
"category": "G",
"score": 10
},
],
}
请注意,RDD不一定要排序,并且RDD可以轻松包含几亿行。我是PySpark的新手,所以有关如何有效实现此目标的任何指示都将有所帮助。
答案 0 :(得分:2)
groupBy
ip
,然后将分组的RDD转换为所需的内容:
rdd.groupBy(lambda r: r.ip).map(
lambda g: {
'ip': g[0],
'scores': [{'category': x['category'], 'score': x['score']} for x in g[1]]}
).collect()
# [{'ip': '1.2.3.4', 'scores': [{'category': 'X', 'score': 5}, {'category': 'Y', 'score': 2}, {'category': 'Z', 'score': 9}]}, {'ip': '12.12.12.12', 'scores': [{'category': 'G', 'score': 10}]}, {'ip': '10.10.10.10', 'scores': [{'category': 'A', 'score': 2}, {'category': 'X', 'score': 3}]}]