我正在尝试将sprak数据框中的列拆分为值。所以我将要拆分的列分开并检查了它的类型:
I: type(TopicModelVectorSplit)
O: pyspark.sql.dataframe.DataFrame
当我使用:
拆分字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split())
它转换为pipilined RDD,这些是不可能的。
I: type(TopicModelVectorSplit)
O: pyspark.rdd.PipelinedRDD
如何拆分此列并仍然保持数据框属性不变?
万分感谢
答案 0 :(得分:0)
您始终可以使用.toDF将其转换回数据框,但RDD并非无法使用,您也可以将其保留为原样。
Split = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()).toDF