如何从pyspark数据帧中将列值输出为字符串?

时间:2019-04-23 03:01:00

标签: python pyspark

我正在使用数据集,并想创建一个名为'text'的特定列的所有值的textblob。我尝试了以下方法:

xp = positive.select("text").collect().map(_(0)).toList
#positive is the dataframes name, 'text' is the column name
xp = " ".join(positive['text])

到目前为止,这些方法中没有一个对我有用,并且返回错误

'list' object has no attribute 'map'
Traceback (most recent call last):
AttributeError: 'list' object has no attribute 'map'

1 个答案:

答案 0 :(得分:0)

您似乎正在使用Scala语法。 list返回的collect包含Row个对象;您可以使用 generator表达式而不是使用text(不是Row的方法来访问每个map的{​​{1}}属性,无论如何):

list