我在完整数据集上运行了vowpal wabbit并获得了最终系数。我用批量学习(gl in R)方法运行相同的数据来获得系数。我从vowpal wabbit得到的系数与批量学习系数有很大的不同。
我认为vowpal wabbit对任何给定模型使用梯度下降算法(平方损失,逻辑损失)。所以我预计最终结果会在某种程度上匹配。但一个是10 ^ -1(在线)的顺序,另一个是10 ^ 4(批量)。有人可以解释一下这个区别吗?我甚至使用了多次传递(使用相同数量的迭代批次学习)
========================
一些信息:在glm中我使用了二项式家族,在vowpal wabbit中我使用了loss_function logistic。