我有一组分类列(字符串),我将解析并转换为要传递给mllib分类器(随机林)的要素向量。
在我的输入数据中,某些列具有空值。比方说,在其中一列中,我有p值+空值: 我应该如何构建我的特征向量,以及分类器的categoricalFeaturesInfo映射?
感谢您的帮助。
(PS:我知道新的数据帧+管道+ vectorindexer API,但由于它不能满足我的需要,所以我需要自己做)
答案 0 :(得分:1)
看起来选项2就是那个。如果您的null实际上是分类要素的另一个级别,则只需将其映射到某个值。 请注意,在您正确使用它们之前,应将分类要素级别映射到0,1,2 ....等,请参见此处:
因此,空值将映射到其中一个数字。