是否有必要将分类属性转换为数字属性以在Pyspark中使用LabeledPoint功能?

时间:2017-01-06 18:50:01

标签: pyspark categorical-data

我是Pyspark的新手。我有一个包含分类特征的数据集,我想使用pyspark中的回归模型来预测连续值。我被困在使用MLlib模型所需的数据的预处理中。

1 个答案:

答案 0 :(得分:0)

是的,这是必要的。您不仅要转换为数字,还要编码以使它们对线性模型有用。这两个步骤都在pyspark.ml(不是mllib)中实现:

  • pyspark.ml.feature.StringIndexer - 索引。
  • pyspark.ml.feature.OneHotEncoder - 编码。