_.split(“”)scala RDD中的更多字段

时间:2015-12-03 05:40:22

标签: scala apache-spark

我正在尝试将数据从RDD[string]提取到另一个RDD[string]

RDD包含与此类似的数据:

17.808  15.749  6.649   -0.548  15.9994

我需要将每行的第4和第5个字段相乘,然后将它们存储到不同的RDD[string]

我可以使用以下代码提取一个字段

ansRDD = rawRDD(._split(" ")(4)).(_.toFloat)

rawRDD包含字符串。

但是我需要将这两个字段拉成一个RDD

-0.548  15.9994

这样我就可以做到

answer = ansRDD.foreach(case(a,b) => a*b)

2 个答案:

答案 0 :(得分:5)

您可以使用:

rawRDD.map(_.split(' ').view(4, 6).map(_.toFloat).reduce(_*_).toString)

答案 1 :(得分:3)

您可以将ansRDD定义为:

Varchar