在Apache Spark中管道groupByKey数据

时间:2014-10-20 15:06:34

标签: apache-spark pipe

我想转换来自Apache Spark的外部脚本的以下数据集:

key,val1,val2
1,a,b
1,c,d
1,e,f
2,g,h
2,i,j
2,k,l

数据应首先按键分组,然后使用pipe()

将所有值传递给外部脚本

我尝试了这段代码,但它只调用一次脚本并将所有数据传递给它:

data.map(s => s.split(",")).map(a => (a(1),a)).groupByKey().pipe(Seq(SparkFiles.get("test.sh")))

0 个答案:

没有答案