如何将pandas数据帧转换为具有rdd属性的pyspark数据帧?

时间:2018-03-29 11:48:21

标签: python pandas dataframe pyspark

现在我正在为我的课程做一个项目,并发现将field1,"this is first line 24"" monitor this is third line",field3 转换为pandas dataframe的问题。 我已经生成了一个名为data_org的pandas数据帧,如下所示。 enter image description here

我想将其转换为pyspark数据帧,将其调整为libsvm格式。 所以我的代码是

pyspark dataframe

然而,它出错了。

  

TypeError:createDataFrame()缺少1个必需的位置参数:'数据'

我真的不知道该怎么做。我的python版本是3.5.2,pyspark版本是2.0.1。 我期待着你的回复。

1 个答案:

答案 0 :(得分:2)

首先将sparkContext传递给SQLContext:

from pyspark import SparkContext
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

然后使用createDataFrame,如下所示:

spark_df = sql.createDataFrame(data_org)