这是我的RDD,因为你可以看到一个块可以有多个类型值:
[['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy'],
['Adventure', 'Children', 'Fantasy'],
['Comedy', 'Romance'],
['Comedy', 'Drama', 'Romance'],
['Comedy']]
我希望从RDD数组中的值中列出一个列表,将所有值分成多行,如下所示:
['Adventure',
'Drama',
'Comedy'] ....
并使这个系列与众不同。
到目前为止,我已尝试过这个
RDD.flatMap(lambda x: x).distinct().take(100)
但我不知道这段代码是否从所有数组中获取所有值,并从中生成一个不同的列表。问题是,它是否执行了我要求它执行的任务?