我使用vowpal wabbit进行逻辑回归。我开始知道vowpal wabbit从给定的训练数据中选择一个保持集进行验证。这个集是随机选择的。我有一个非常不平衡的数据集,包含100 + ve示例和1000个示例。我想知道这个训练数据,vowpal wabbit如何选择实例?
如何为+ ve示例分配更多权重
答案 0 :(得分:5)
默认情况下,每个第10个示例都用于保留(您可以使用--holdout_period
更改它,
见https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options)。
这意味着仅使用90%的训练数据训练使用保持评估训练的模型。
这可能导致精度稍差。
另一方面,它允许您使用--early_terminate
(默认情况下设置为3次传递),
这样可以更轻松地降低因过多训练过程而导致过度训练的风险。
请注意,默认情况下,只有在使用多次传递时才会启用保持评估(否则,VW会使用渐进式验证丢失)。
关于第二个问题,您可以将重要性权重添加到正面示例中。默认重要性权重为1.请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format