对于在多类分类任务中代表“其他所有”的标签,样本数应该有多大,是否有经验法则?
示例:我想将输入归类为X
类之一。当输入为“以上都不是”时,X + 1
类会激活。假设我的数据集包含来自10个“正”类中的每一个的5,000个样本。对于代表“未知”类的样本,我会使用可能在生产中找到的多个现实示例,但这些示例不是来自其他类。
这些负面例子的数量相对于其他分布有多大?
答案 0 :(得分:1)
这可能有点偏离主题,但无论如何,我认为没有一般的经验法则,这取决于你的问题和你的方法。
我会考虑以下因素:
不幸的是,判断你是否正常的唯一好方法是尝试并在代表性测试数据集上有良好的指标(混淆矩阵,每类精确度/召回等)。