我在文件中有一个这样的数据库:
tag1 \t tag2
我需要为每个tag1获取更频繁地分配了tag1的tag2。
我到目前为止所做的:
lines = sc.textFile("myfile")
result = (lines
.map(lambda x: ((str(x.split("\t")[2]), str(x.split("\t")[1])), int(1)))
.reduceByKey(lambda x, y: x + y)
.map(lambda x: (x[0][0], x[0][1], x[1]))
.collect()
)
使用这部分代码,我可以找到tag1,tag2出现的地方,对其求和,然后找到其中的多少。
现在,我需要从(tag1,tag2,count)中找到每个tag1的最大数量。
谢谢您的时间。