使用python进行Spark多类分类

时间:2017-02-25 10:04:26

标签: python apache-spark pyspark multiclass-classification

我正在尝试使用pySpark实现多类分类,我花了很多时间在网上搜索,我已经读过现在可以使用Spark 2.1.0。

我已经生成了我自己的具有全数字特征的数据集,并且我创建了一个DataFrame,如下所示; Features and the Classes('Service_Level')

我有三个班级' Service_Level'它们是0,1或2.

问题:

  1. 如果我有这样的功能,我是否必须使用LabeledPoints?
  2. 如何使用多层感知器代替逻辑回归?
  3. 感谢。

1 个答案:

答案 0 :(得分:0)

由于没有答案,我将分享我在研究期间观察到的内容。使用标签点时,使用现在处于Spark 2.1.0维护模式的Spark MLlib即可。但是,我的功能是明确的,因此使用DataFrame API与Spark ML,我不得不使用StringIndexer,OneHotEncoder和Pipelines将它们转换为矢量来选择我的功能和标签。

回答问题
是的,Labeled Points可以与这些功能一起使用,但在使用Spark MLlib时。我无法实现多层感知器,因为它以某种方式需要libsvm格式化的数据,而这些数据我没有,也无法将我的CSV转换为此类数据。

在最终实施中,我必须使用基于Dataframe的API Spark ml