如何在vowpal wabbit中选择保留集

时间:2014-07-08 15:40:12

标签: logistic-regression vowpalwabbit

我使用vowpal wabbit进行逻辑回归。我开始知道vowpal wabbit从给定的训练数据中选择一个保持集进行验证。这个集是随机选择的。我有一个非常不平衡的数据集,包含100 + ve示例和1000个示例。我想知道这个训练数据,vowpal wabbit如何选择实例?

如何为+ ve示例分配更多权重

1 个答案:

答案 0 :(得分:5)

默认情况下,每个第10个示例都用于保留(您可以使用--holdout_period更改它, 见https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options)。 这意味着仅使用90%的训练数据训练使用保持评估训练的模型。 这可能导致精度稍差。 另一方面,它允许您使用--early_terminate(默认情况下设置为3次传递), 这样可以更轻松地降低因过多训练过程而导致过度训练的风险。 请注意,默认情况下,只有在使用多次传递时才会启用保持评估(否则,VW会使用渐进式验证丢失)。

关于第二个问题,您可以将重要性权重添加到正面示例中。默认重要性权重为1.请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format