这是我非常天真的问题。我检查了谷歌和许多YouTube视频的初学者和几乎所有,所有解释数据加权是最明显的事情。我仍然不明白为什么要对数据进行加权。
我们假设我有四个功能:
a b c d
1 2 1 4
如果我将每个值传递给Sigmond函数,我将收到-1><已经有1个值。
我真的不明白为什么数据需要或者建议先加权。如果你能以非常简单的方式向我解释,我会非常感激。
答案 0 :(得分:0)
我认为你不是在谈论称重数据而是功能。 功能是表格中的一列,作为数据,我会理解行。
现在的困惑来自于称重行有时也是明智的,例如,如果你想更多地惩罚积极阶级的错误分类。
为什么我们需要权衡功能? 我假设你在谈论像
这样的模型 prediction = sigmoid(sum_i weight_i * feature_i) > base
假设你想根据体重,身高和年龄来预测一个人是否超重。
在R中,我们可以生成样本数据集
height = rnorm(100,1.80,0.1) #normal distributed mean 1.8,variance 0.1
weight = rnorm(100,70,10)
age = runif(100,0,100)
ow = weight / (height**2)>25 #overweight if BMI > 25
data = data.frame(height,weight,age,bc,ow)
如果我们现在绘制数据,您可以看到至少我的数据样本可以用重量/高度的直线分开。但是,年龄不提供任何价值。如果我们在sum / sigmoid之前对它进行加权,你可以将所有因素都放在一起。
此外,正如您从下图所示,重量/高度具有非常不同的域。因此,需要将它们关联起来,使得下图中的线具有正确的斜率,因为权重值具有一个数量级更大