将一个rdd转换为DF coulmn

时间:2017-09-10 06:27:22

标签: python apache-spark dataframe pyspark rdd

我从DF列

制作了RDD
##converting a column into an rdd
rdd = eDF_review_split.select('splReview').rdd.map(list)
##print rdd.take(10)

我得到的结果如下

[[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'for']]

这是有道理的,因为这些词来自不同的行。

如何将其制作成如下格式?

[u'Installing', u'the', u'game', u'was', u'a', u'struggle', u'(because', u'of', u'games', u'for']

我需要这样做,所以我可以做一个正确的字数。

2 个答案:

答案 0 :(得分:3)

flatMap

  

flatMap(f, preservesPartitioning=False)

     

首先将一个函数应用于此RDD的所有元素,然后展平结果,返回一个新的RDD。

identity function

df_review_split.select('splReview').rdd.flatMap(lambda x: x)
  

我需要这样做,所以我可以做一个正确的字数。

 eDF_review_split.groupBy('splReview').count()

答案 1 :(得分:0)

遍历列表列表,并对主列表中的每个列表,将值附加到另一个列表。

一个班轮:

if (function_exists('newrelic_ignore_transaction')) {
    newrelic_ignore_transaction();
}

这意味着:

list_main_separated = [item for insideList in rdd for item in insideList]