Spark Dataframe使用map函数转换为RDD

时间:2016-06-22 08:08:11

标签: apache-spark dataframe pyspark

我正在尝试将sprak数据框中的列拆分为值。所以我将要拆分的列分开并检查了它的类型:

I: type(TopicModelVectorSplit)
O: pyspark.sql.dataframe.DataFrame

当我使用:

拆分字符串时
TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split())

它转换为pipilined RDD,这些是不可能的。

I: type(TopicModelVectorSplit)
O: pyspark.rdd.PipelinedRDD

如何拆分此列并仍然保持数据框属性不变?

万分感谢

1 个答案:

答案 0 :(得分:0)

您始终可以使用.toDF将其转换回数据框,但RDD并非无法使用,您也可以将其保留为原样。

Split = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()).toDF