Question

这是我非常天真的问题。我检查了谷歌和许多YouTube视频的初学者和几乎所有，所有解释数据加权是最明显的事情。我仍然不明白为什么要对数据进行加权。

我们假设我有四个功能：

a b c d
1 2 1 4

如果我将每个值传递给Sigmond函数，我将收到-1＆gt;＆lt;已经有1个值。

我真的不明白为什么数据需要或者建议先加权。如果你能以非常简单的方式向我解释，我会非常感激。

Answer 1

我认为你不是在谈论称重数据而是功能。功能是表格中的一列，作为数据，我会理解行。

现在的困惑来自于称重行有时也是明智的，例如，如果你想更多地惩罚积极阶级的错误分类。

为什么我们需要权衡功能？我假设你在谈论像

这样的模型

 prediction = sigmoid(sum_i weight_i * feature_i) > base

假设你想根据体重，身高和年龄来预测一个人是否超重。

在R中，我们可以生成样本数据集

height = rnorm(100,1.80,0.1) #normal distributed mean 1.8,variance 0.1
weight = rnorm(100,70,10)
age = runif(100,0,100)
ow = weight / (height**2)>25 #overweight if BMI > 25
data = data.frame(height,weight,age,bc,ow)

如果我们现在绘制数据，您可以看到至少我的数据样本可以用重量/高度的直线分开。但是，年龄不提供任何价值。如果我们在sum / sigmoid之前对它进行加权，你可以将所有因素都放在一起。

此外，正如您从下图所示，重量/高度具有非常不同的域。因此，需要将它们关联起来，使得下图中的线具有正确的斜率，因为权重值具有一个数量级更大

机器学习，为什么我们需要权重数据

1 个答案: