标签: pyspark categorical-data
我是Pyspark的新手。我有一个包含分类特征的数据集,我想使用pyspark中的回归模型来预测连续值。我被困在使用MLlib模型所需的数据的预处理中。
答案 0 :(得分:0)
是的,这是必要的。您不仅要转换为数字,还要编码以使它们对线性模型有用。这两个步骤都在pyspark.ml(不是mllib)中实现:
pyspark.ml
mllib
pyspark.ml.feature.StringIndexer
pyspark.ml.feature.OneHotEncoder