Question

我从DF列

制作了RDD

##converting a column into an rdd
rdd = eDF_review_split.select('splReview').rdd.map(list)
##print rdd.take(10)

我得到的结果如下

[[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'for']]

这是有道理的，因为这些词来自不同的行。

如何将其制作成如下格式？

[u'Installing', u'the', u'game', u'was', u'a', u'struggle', u'(because', u'of', u'games', u'for']

我需要这样做，所以我可以做一个正确的字数。

Answer 1

flatMap(f, preservesPartitioning=False)

首先将一个函数应用于此RDD的所有元素，然后展平结果，返回一个新的RDD。

df_review_split.select('splReview').rdd.flatMap(lambda x: x)

我需要这样做，所以我可以做一个正确的字数。

 eDF_review_split.groupBy('splReview').count()

Answer 2

遍历列表列表，并对主列表中的每个列表，将值附加到另一个列表。

一个班轮：

if (function_exists('newrelic_ignore_transaction')) {
    newrelic_ignore_transaction();
}

这意味着：

list_main_separated = [item for insideList in rdd for item in insideList]