因此,对我要分类的每个“事物”说: {房屋,公寓,平房,电暖气,煤气暖气...
这将成为特征向量: {1,0,0,1,0,...}表示用电取暖的房屋。
对于我的训练数据,我将拥有所有这些数据-但是对于我想要分类的实际事物,我可能只会拥有它的房屋类型,还有其他一些东西-而并非所有数据。 {1,0,0,?,?,...}
那我怎么表示呢?
我想找到一个新项目被gasHeated加热的可能性。
我将使用SVM线性分类器-我没有任何要展示的核心,因为此刻目前仅是理论上的。任何帮助,将不胜感激:)
答案 0 :(得分:2)
当我阅读此问题时,您似乎对功能和标签感到困惑。
您说过要预测新项目是否为“ gasHeated”,那么“ gasHeated”应该是标签而不是功能。
btw,处理缺失值的最常见方法之一是将其设置为“零”(或一些未使用的值,例如-1)。但通常,您应该在训练数据和测试数据中都缺少价值,以使此技巧有效。如果这仅发生在您的测试数据中,而没有发生在您的训练数据中,则意味着您的训练数据和测试数据不是来自同一分布,这基本上违反了机器学习的基本假设。答案 1 :(得分:0)
假设您有训练有素的模型和测试样本{?,0,0,0}。然后,您可以创建两个新的测试样本{1,0,0,0},{0,0,0,0},您将有两个预测。
如果您在测试数据集中缺少值,我个人认为SVM不是一种好方法。就像我上面提到的那样,尽管您可以得到两个新的预测,但是如果每个预测都有不同的预测该怎么办?我认为,除非使用逻辑回归或朴素贝叶斯,否则很难为SVM结果分配概率。在这种情况下,我更喜欢随机森林。