我正在尝试使用pySpark实现多类分类,我花了很多时间在网上搜索,我已经读过现在可以使用Spark 2.1.0。
我已经生成了我自己的具有全数字特征的数据集,并且我创建了一个DataFrame,如下所示;
我有三个班级' Service_Level'它们是0,1或2.
问题:
感谢。
答案 0 :(得分:0)
由于没有答案,我将分享我在研究期间观察到的内容。使用标签点时,使用现在处于Spark 2.1.0维护模式的Spark MLlib
即可。但是,我的功能是明确的,因此使用DataFrame API与Spark ML
,我不得不使用StringIndexer,OneHotEncoder和Pipelines将它们转换为矢量来选择我的功能和标签。
回答问题
是的,Labeled Points可以与这些功能一起使用,但在使用Spark MLlib时。我无法实现多层感知器,因为它以某种方式需要libsvm
格式化的数据,而这些数据我没有,也无法将我的CSV转换为此类数据。
在最终实施中,我必须使用基于Dataframe的API Spark ml