应用错误收集

如何在vowpal wabbit中选择保留集

时间：2014-07-08 15:40:12

标签： logistic-regression vowpalwabbit

我使用vowpal wabbit进行逻辑回归。我开始知道vowpal wabbit从给定的训练数据中选择一个保持集进行验证。这个集是随机选择的。我有一个非常不平衡的数据集，包含100 + ve示例和1000个示例。我想知道这个训练数据，vowpal wabbit如何选择实例？

如何为+ ve示例分配更多权重

1 个答案:

答案 0 :(得分：5)

默认情况下，每个第10个示例都用于保留（您可以使用--holdout_period更改它，见https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options）。这意味着仅使用90％的训练数据训练使用保持评估训练的模型。这可能导致精度稍差。另一方面，它允许您使用--early_terminate（默认情况下设置为3次传递），这样可以更轻松地降低因过多训练过程而导致过度训练的风险。请注意，默认情况下，只有在使用多次传递时才会启用保持评估（否则，VW会使用渐进式验证丢失）。

关于第二个问题，您可以将重要性权重添加到正面示例中。默认重要性权重为1.请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format