如何将列表列表转换为Spark中的字符串列表

时间:2017-06-13 20:29:45

标签: python apache-spark pyspark

想象一下,在阅读文件后,您有一个具有以下格式的列表:

>>> data.take(2)
[['Hello ', 'how ', 'are ', 'you'], ['fine ', 'thank ', 'you']]

但是,您只想获得strings的列表,以便:

['Hello how are you', 'fine thank you']

2 个答案:

答案 0 :(得分:3)

只需在相关列表中使用lambda执行地图,并在每个内部列表中使用join进行操作。

>>> data = data.map(lambda x : ''.join(x))
>>> data.take(2)
['Hello how are you', 'fine thank you']

答案 1 :(得分:1)

在Scala中,我们可以使用mkString将列表设为字符串

val data = List(List("Hello ", "how ", "are ", "you "), List("fine ", "thank ", "you"))
 data.map(_.mkString)

输出:

List[String] = List("Hello how are you" , "fine thank you")