Question

我有一个rdd，RDD的结构如下：

org.apache.spark.rdd.RDD[(String, Array[String])] = MappedRDD[40] at map at <console>:14

以下是x.take(1)：

Array[(String, Array[String])] = Array((8239427349237423,Array(122641|2|2|1|1421990315711|38|6487985623452037|684|, 1229|2|1|1|1411349089424|87|462966136107937|1568|.....))

对于数组中的每个字符串，我想用“|”拆分并获取第6项并使用元组的第一个元素返回它，如下所示：

8239427349237423-6487985623452037
8239427349237423-4629661361079371

我开始如下：

  def getValues(lines: Array[String]) {
    for(line <- lines) {
      line.split("|")(6)
    }

我也尝试过：

val b= x.map(a => (a._1, a._2.flatMap(y => y.split("|")(6))))

但最终让我跟进：

Array[(String, Array[Char])] = Array((8239427349237423,Array(1, 2, 4, |, 9, |, 4, 1, 7, 6, |, 2, 9, 2, 7, 2, |, 7, |,....)))

Answer 1

如果您想为整个x执行此操作，可以使用flatMap：

def getValues(x: Array[(String, Array[String])]) =
  x flatMap (line => line._2 map (line._1 + "-" + _.split("\\|")(6)))

或者，也许更清楚一点，理解：

def getValues(x: Array[(String, Array[String])]) = 
  for {
    (fst, snd) <- x
    line <- snd
  } yield fst + "-" + line.split("\\|")(6)

你必须使用split参数调用"\\|"，因为它需要一个正则表达式而|是一个特殊符号，因此你需要转义它。（修改：，或者您可以使用'|'（Char），如@BenReich所建议的那样）

要回答您的评论，您可以修改getValues以将x中的单个元素作为参数：

def getValues(item: (String, Array[String])) =
  item._2 map (item._1 + "-" + _.split('|')(6))

然后用

调用它

x flatMap getValues

scala：处理元组，其中元组的第二个元素是一个字符串数组

1 个答案: