通过Pyspark订购并获得最高

时间:2019-06-18 12:30:11

标签: python apache-spark pyspark

我在文件中有一个这样的数据库:

tag1 \t tag2

我需要为每个tag1获取更频繁地分配了tag1的tag2。

我到目前为止所做的:

lines = sc.textFile("myfile")
result = (lines
        .map(lambda x: ((str(x.split("\t")[2]), str(x.split("\t")[1])), int(1)))
        .reduceByKey(lambda x, y: x + y)
        .map(lambda x: (x[0][0], x[0][1], x[1]))
        .collect()
        )

使用这部分代码,我可以找到tag1,tag2出现的地方,对其求和,然后找到其中的多少。

现在,我需要从(tag1,tag2,count)中找到每个tag1的最大数量。

谢谢您的时间。

0 个答案:

没有答案