我对一个简单的大众汽车的输出有几个问题。我已经阅读了互联网和维基站点,但仍然不确定几个基本的东西。
我在波士顿住房数据上运行了以下内容:
vw -d housing.vm --progress 1
其中housing.vm文件设置为(部分):
和输出是(部分):
问题1:
1)按照以下步骤考虑平均损失列是否正确:
a)预测零,所以第一个平均损失是第一个例子的平方误差(预测为零)
b)在示例1上建立模型并预测示例2.平均现在的2平方损失
c)在示例1-2上建立模型并预测示例3.平均现在的3平方损失
d)...
这样做直到你到达数据的末尾(假设一次通过)
2)当前功能列是什么?它似乎是非零特征的数量+截距。示例中显示的内容表明,如果某个功能为零,则不计入该功能 - 这是真的吗?例如,对于' ZN',第二条记录的值为零。大众真的把这个数字特征视为缺失吗?
答案 0 :(得分:5)
你的陈述基本上是正确的。默认情况下,大众进行在线学习,因此在步骤c中,它采用当前模型(权重)并使用当前示例进行更新(而不是再次学习所有前面的示例)。
如您所愿,当前功能列是当前示例的(非零)功能的数量。除非您指定--noconstant
。
缺失特征与零值特征之间没有区别。两者都意味着您不会更新相应的权重。