使用apache spark迭代字符串

时间:2015-12-11 16:43:56

标签: scala apache-spark

例如,我们有字符串" abcdabcd"

我们想要计算字符串中可用的所有对(例如:" ab"或" da")。

那么我们如何在apache spark中做到这一点?

我问这个原因看起来RDD不支持滑动功能:

rdd.sliding(2).toList
//Count number of pairs in list
//Returns syntax error on first line (sliding)

1 个答案:

答案 0 :(得分:5)

显然它通过mllib支持sliding,如zero323 here

所示
import org.apache.spark.mllib.rdd.RDDFunctions._

val str = "abcdabcd"

val rdd = sc.parallelize(str)

rdd.sliding(2).map(_.mkString).toLocalIterator.forEach(println)

将显示

  

AB
  BC
  CD
  DA
  AB
  BC
  cd