仅从数据帧的任何标识行中提取字段的值(不是命名值)

时间:2016-09-01 08:02:09

标签: pyspark spark-dataframe

我正在学习pySpark并且有一个我认为是基本的问题但我无法破解它..

我们假设我有以下代码

lettersDF = sqlContext.createDataFrame([('A',), ('B',), ('C',), ('D',), ('E', )], ['word'])

现在我要打印第3行' word'

print lettersDF.head(3)[2] 
Row(word=u'C')

我只想打印C'我该怎么办?我不希望这个" dict"输出,而不是我想要一个"列表"像输出

有人可以解释一下head(),tail(),take()和first()或类似的" Action"关键词工作?不知怎的,我想我错过了一些基本的东西

1 个答案:

答案 0 :(得分:1)

是的,它是一个Row对象(pyspark.sql.types.Row),你可以转换它

print lettersDF.head(3)[2].asDict()
{'word': u'C'}