如何使用Scala和Spark从数组中选择非顺序子集元素?

时间:2015-04-02 17:25:28

标签: arrays scala apache-spark

在Python中,我就是这样做的。

>>> x
array([10,  9,  8,  7,  6,  5,  4,  3,  2])
>>> x[np.array([3, 3, 1, 8])]
array([7, 7, 9, 2])

这在Scala Spark shell中不起作用:

scala> val indices = Array(3,2,0)
indices: Array[Int] = Array(3, 2, 0)

scala> val A = Array(10,11,12,13,14,15)
A: Array[Int] = Array(10, 11, 12, 13, 14, 15)

scala> A(indices)
<console>:28: error: type mismatch;
 found   : Array[Int]
 required: Int
              A(indices)

foreach方法也不起作用:

scala> indices.foreach(println(_))
3
2
0

scala> indices.foreach(A(_))
<no output>

我想要的是B的结果:

scala> val B = Array(A(3),A(2),A(0))
B: Array[Int] = Array(13, 12, 10)

但是,我不想像那样对它进行硬编码,因为我不知道索引的长度或内容是多少。

2 个答案:

答案 0 :(得分:7)

我能想到的最简洁的方法是翻转你的心理模型并将指数放在第一位:

indices map A

而且,我建议您使用lift返回Option

indices map A.lift

答案 1 :(得分:6)

您可以在map上使用indices,它会根据映射lambda将每个元素映射到一个新元素。请注意,在Array上,您会在使用apply方法的索引处获得一个元素:

indices.map(index => A.apply(index))

您可以暂停apply

indices.map(index => A(index))

您还可以使用下划线语法:

indices.map(A(_))

当你处于这种情况时,你甚至可以不用下划线:

indices.map(A)

您可以使用备用空格语法:

indices map A

您尝试使用foreach,它返回Unit,仅用于副作用。例如:

indices.foreach(index => println(A(index)))
indices.map(A).foreach(println)
indices map A foreach println