现在我正在为我的课程做一个项目,并发现将field1,"this is first line
24"" monitor
this is third line",field3
转换为pandas dataframe
的问题。
我已经生成了一个名为data_org的pandas数据帧,如下所示。
enter image description here
我想将其转换为pyspark数据帧,将其调整为libsvm格式。 所以我的代码是
pyspark dataframe
然而,它出错了。
TypeError:createDataFrame()缺少1个必需的位置参数:'数据'
我真的不知道该怎么做。我的python版本是3.5.2,pyspark版本是2.0.1。 我期待着你的回复。
答案 0 :(得分:2)
首先将sparkContext传递给SQLContext:
from pyspark import SparkContext
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)
然后使用createDataFrame
,如下所示:
spark_df = sql.createDataFrame(data_org)