如何使用python运行具有分类功能的Spark逻辑回归?

时间:2015-02-18 15:59:00

标签: apache-spark logistic-regression categorical-data

我有一些带有一些分类变量的数据,我想使用Mllib运行逻辑回归,看起来模型只支持连续变量。 有谁知道如何处理这个问题?

1 个答案:

答案 0 :(得分:0)

与其他线性模型一样,Logistic回归将RDD视为输入,而LabeledPoint则是Double(标签)和关联的Vector(双数组)。

不支持分类值(字符串),但您可以将它们转换为二进制列。

例如,如果列RAG的值为红色,琥珀色和绿色,则会添加三个二进制列isRed,isAmber和isGreen,其中只有一个为1(true),其他为0(零)每个样本。

见进一步说明:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html