我从DF列
制作了RDD##converting a column into an rdd
rdd = eDF_review_split.select('splReview').rdd.map(list)
##print rdd.take(10)
我得到的结果如下
[[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'for']]
这是有道理的,因为这些词来自不同的行。
如何将其制作成如下格式?
[u'Installing', u'the', u'game', u'was', u'a', u'struggle', u'(because', u'of', u'games', u'for']
我需要这样做,所以我可以做一个正确的字数。
答案 0 :(得分:3)
flatMap(f, preservesPartitioning=False)
首先将一个函数应用于此RDD的所有元素,然后展平结果,返回一个新的RDD。
df_review_split.select('splReview').rdd.flatMap(lambda x: x)
我需要这样做,所以我可以做一个正确的字数。
eDF_review_split.groupBy('splReview').count()
答案 1 :(得分:0)
遍历列表列表,并对主列表中的每个列表,将值附加到另一个列表。
一个班轮:
if (function_exists('newrelic_ignore_transaction')) {
newrelic_ignore_transaction();
}
这意味着:
list_main_separated = [item for insideList in rdd for item in insideList]