我有一些带有一些分类变量的数据,我想使用Mllib运行逻辑回归,看起来模型只支持连续变量。 有谁知道如何处理这个问题?
答案 0 :(得分:0)
与其他线性模型一样,Logistic回归将RDD视为输入,而LabeledPoint则是Double(标签)和关联的Vector(双数组)。
不支持分类值(字符串),但您可以将它们转换为二进制列。
例如,如果列RAG的值为红色,琥珀色和绿色,则会添加三个二进制列isRed,isAmber和isGreen,其中只有一个为1(true),其他为0(零)每个样本。
见进一步说明:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html