Question

现在我正在为我的课程做一个项目，并发现将field1,"this is first line 24"" monitor this is third line",field3转换为pandas dataframe的问题。我已经生成了一个名为data_org的pandas数据帧，如下所示。 enter image description here

我想将其转换为pyspark数据帧，将其调整为libsvm格式。所以我的代码是

pyspark dataframe

然而，它出错了。

TypeError：createDataFrame（）缺少1个必需的位置参数：＆＃39;数据＆＃39;

我真的不知道该怎么做。我的python版本是3.5.2，pyspark版本是2.0.1。我期待着你的回复。

Answer 1

首先将sparkContext传递给SQLContext：

from pyspark import SparkContext
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

然后使用createDataFrame，如下所示：

spark_df = sql.createDataFrame(data_org)

如何将pandas数据帧转换为具有rdd属性的pyspark数据帧？

1 个答案: