应用错误收集

使用python进行Spark多类分类

时间：2017-02-25 10:04:26

标签： python apache-spark pyspark multiclass-classification

我正在尝试使用pySpark实现多类分类，我花了很多时间在网上搜索，我已经读过现在可以使用Spark 2.1.0。

我已经生成了我自己的具有全数字特征的数据集，并且我创建了一个DataFrame，如下所示;

我有三个班级＆＃39; Service_Level＆＃39;它们是0,1或2.

问题：

如果我有这样的功能，我是否必须使用LabeledPoints？
如何使用多层感知器代替逻辑回归？

感谢。

1 个答案:

答案 0 :(得分：0)

由于没有答案，我将分享我在研究期间观察到的内容。使用标签点时，使用现在处于Spark 2.1.0维护模式的Spark MLlib即可。但是，我的功能是明确的，因此使用DataFrame API与Spark ML，我不得不使用StringIndexer，OneHotEncoder和Pipelines将它们转换为矢量来选择我的功能和标签。

回答问题
是的，Labeled Points可以与这些功能一起使用，但在使用Spark MLlib时。我无法实现多层感知器，因为它以某种方式需要libsvm格式化的数据，而这些数据我没有，也无法将我的CSV转换为此类数据。

在最终实施中，我必须使用基于Dataframe的API Spark ml