pyspark错误:'DataFrame'对象没有属性'map'

时间:2016-09-08 01:26:12

标签: apache-spark spark-dataframe apache-spark-2.0

我正在使用pyspark 2.0通过使用:

读取csv来创建DataFrame对象
data = spark.read.csv('data.csv', header=True)

我使用

找到数据的类型
type(data)

结果是

pyspark.sql.dataframe.DataFrame

我正在尝试将数据中的某些列转换为LabeledPoint以应用分类。

from pyspark.sql.types import *    
from pyspark.sql.functions import loc
from pyspark.mllib.regression import LabeledPoint

data.select(['label','features']).
              map(lambda row:LabeledPoint(row.label, row.features))

我遇到了这个问题:

AttributeError: 'DataFrame' object has no attribute 'map'

有关错误的任何想法?有没有办法从DataFrame生成LabelPoint才能执行分类?

1 个答案:

答案 0 :(得分:15)

使用.rdd.map

>>> data.select(...).rdd.map(...)
Spark 2中已删除

DataFrame.map