具有不同的flatMap是否给出了RDD数组值的列表?

时间:2018-03-29 12:18:16

标签: pyspark

这是我的RDD,因为你可以看到一个块可以有多个类型值:

  [['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy'],
     ['Adventure', 'Children', 'Fantasy'],
     ['Comedy', 'Romance'],
     ['Comedy', 'Drama', 'Romance'],
     ['Comedy']]

我希望从RDD数组中的值中列出一个列表,将所有值分成多行,如下所示:

['Adventure',
'Drama',
'Comedy'] ....

并使这个系列与众不同。

到目前为止,我已尝试过这个

RDD.flatMap(lambda x: x).distinct().take(100)

但我不知道这段代码是否从所有数组中获取所有值,并从中生成一个不同的列表。问题是,它是否执行了我要求它执行的任务?

0 个答案:

没有答案