Question

我正在尝试处理一个3 GB的文件。该文件的结构是这样的，它包含多行，一组n行可以按特定键分组，每个键出现在特定位置

以下是文件结构示例

abc123Key1asdas
abc124Key1asdas
abc126Key1asasd
abcw23Key2asdad
asdfsaKey2asdsa
....
.....
.....
abcasdKeynasdas
asfssdfKeynasda
asdaasdKeynsdfa

我想要实现的结构是

((Key1,(abc123Key1asdas,abc124Key1asdas,abc126Key1asasd)),(Key2,(abcw23Key2asdad,asdfsaKey2asdsa)),...(Keyn,(abcasdKeynasdas,asfssdfKeynasda,asdaasdKeynsdfa))

我正在尝试做这样的事情

lines = sc.textFile(fileName)
counts = lines.flatMap(lambda line: line.split('\n')).map(lambda line: (line[10:21],line))
        output = counts.combineByKey().collect()

任何人都可以帮我实现我想做的事吗？

Answer 1

只需将combineByKey（）替换为groupByKey（），然后就可以了。

示例代码

data = sc.parallelize(['abc123Key1asdas','abc123Key1asdas','abc123Key1asdas', 'abcw23Key2asdad', 'abcw23Key2asdad', 'abcasdKeynasdas', 'asfssdKeynasda', 'asdaasKeynsdfa'])
data.map(lambda line: (line[6:10],line)).groupByKey().mapValues(list).collect()

[（＆＃39; Key1＆＃39;，[＆＃39; abc123Key1asdas＆＃39;，＆＃39; abc123Key1asdas＆＃39;，＆＃39; abc123Key1asdas＆＃39;]），（＆＃39; Key2＆＃39;，[＆＃39; abcw23Key2asdad＆＃39;，＆＃39; abcw23Key2asdad＆＃39;]），（＆＃39; Keyn＆＃39;，＆＃39; abcasdKeynasdas＆＃39;，＆＃39; asfssdKeynasda＆＃39;，＆＃39; asdaasKeynsdfa＆＃39;]）]

更多信息：http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=groupbykey#pyspark.RDD.groupByKey

Apache Spark Python GroupByKey或reduceByKey或combineByKey

1 个答案: