我正在使用pyspark 2.0通过使用:
读取csv来创建DataFrame对象data = spark.read.csv('data.csv', header=True)
我使用
找到数据的类型type(data)
结果是
pyspark.sql.dataframe.DataFrame
我正在尝试将数据中的某些列转换为LabeledPoint以应用分类。
from pyspark.sql.types import *
from pyspark.sql.functions import loc
from pyspark.mllib.regression import LabeledPoint
data.select(['label','features']).
map(lambda row:LabeledPoint(row.label, row.features))
我遇到了这个问题:
AttributeError: 'DataFrame' object has no attribute 'map'
有关错误的任何想法?有没有办法从DataFrame生成LabelPoint才能执行分类?
答案 0 :(得分:15)
使用.rdd.map
:
>>> data.select(...).rdd.map(...)
Spark 2中已删除 DataFrame.map
。