应用错误收集

时间：2019-07-11 17:47:27

标签： machine-learning svm

因此，对我要分类的每个“事物”说： {房屋，公寓，平房，电暖气，煤气暖气...

这将成为特征向量： {1,0,0,1,0，...}表示用电取暖的房屋。

对于我的训练数据，我将拥有所有这些数据-但是对于我想要分类的实际事物，我可能只会拥有它的房屋类型，还有其他一些东西-而并非所有数据。 {1,0,0，？，？，...}

那我怎么表示呢？

我想找到一个新项目被gasHeated加热的可能性。

我将使用SVM线性分类器-我没有任何要展示的核心，因为此刻目前仅是理论上的。任何帮助，将不胜感激:)

答案 0 :(得分：2)

当我阅读此问题时，您似乎对功能和标签感到困惑。

您说过要预测新项目是否为“ gasHeated”，那么“ gasHeated”应该是标签而不是功能。

btw，处理缺失值的最常见方法之一是将其设置为“零”（或一些未使用的值，例如-1）。但通常，您应该在训练数据和测试数据中都缺少价值，以使此技巧有效。如果这仅发生在您的测试数据中，而没有发生在您的训练数据中，则意味着您的训练数据和测试数据不是来自同一分布，这基本上违反了机器学习的基本假设。

答案 1 :(得分：0)

假设您有训练有素的模型和测试样本{？，0,0,0}。然后，您可以创建两个新的测试样本{1,0,0,0}，{0,0,0,0}，您将有两个预测。

如果您在测试数据集中缺少值，我个人认为SVM不是一种好方法。就像我上面提到的那样，尽管您可以得到两个新的预测，但是如果每个预测都有不同的预测该怎么办？我认为，除非使用逻辑回归或朴素贝叶斯，否则很难为SVM结果分配概率。在这种情况下，我更喜欢随机森林。