标签: apache-spark pipe
我想转换来自Apache Spark的外部脚本的以下数据集:
key,val1,val2 1,a,b 1,c,d 1,e,f 2,g,h 2,i,j 2,k,l
数据应首先按键分组,然后使用pipe()
我尝试了这段代码,但它只调用一次脚本并将所有数据传递给它:
data.map(s => s.split(",")).map(a => (a(1),a)).groupByKey().pipe(Seq(SparkFiles.get("test.sh")))