python - 通过Pyspark订购并获得最高

我在文件中有一个这样的数据库：

tag1 \t tag2

我需要为每个tag1获取更频繁地分配了tag1的tag2。

我到目前为止所做的：

lines = sc.textFile("myfile")
result = (lines
        .map(lambda x: ((str(x.split("\t")[2]), str(x.split("\t")[1])), int(1)))
        .reduceByKey(lambda x, y: x + y)
        .map(lambda x: (x[0][0], x[0][1], x[1]))
        .collect()
        )

使用这部分代码，我可以找到tag1，tag2出现的地方，对其求和，然后找到其中的多少。

现在，我需要从（tag1，tag2，count）中找到每个tag1的最大数量。

谢谢您的时间。

通过Pyspark订购并获得最高

0 个答案: