我的数据由 N 元素组成,我想标记 0 或 1 。这两个类本质上是不平衡的:我知道从那些 N 元素中,有更多的负面例子而不是正面的。
从精确导向的启发式算法中,我可以得到一个具有高精度 b~0.9 的正例的小子样本。该阳性组的大小为 g.N ,其中 g <&lt; 1 即可。我称之为积极的一面。
不在积极组中的元素绝大多数是负面的。我们称之为负集。
然而,它们中的一小部分 a~0.03 确实是阳性的。但是,在绝对数中,负集中的正元素的数量远远高于正集合中的正元素的数量: a。(1-g).N&gt;&gt; b.g.N假设我们有一个分类器,我们可以根据上面定义的正负集计算精度,召回率和F值。虽然它似乎没有什么意义。这就是原因。
永不失败的理想分类器将召回 b 并且精确度为 bg /(bg + a(1-g))&lt;&lt; 1
只记住正集和负集中的内容的分类器将具有精度,召回和F测量值为1。
F-measure似乎表明内存分类器要好得多。但是,理想的分类器是真正解决问题的分类器:正确标记所有正面和所有负面示例。
修正 a , b 和 g 的值,评估的正确方法是什么?存在不平衡和未标记数据的二元分类器?请注意,我不是要尝试训练分类器,而只是评估现有分类器。
答案 0 :(得分:0)
我建议使用ROC曲线的AUC,这对您描述的类不平衡问题很有用。如果您不熟悉,Wikipedia page会提供很好的描述。
答案 1 :(得分:0)
您可以尝试提出合理的成本函数。将A类与B混淆需要多少钱?反之亦然?让A / B级正确的费用是多少?然后,您可以计算给定测试集的成本。
只记住正集和负集中的内容的分类器将具有精度,召回和F测量值为1。
您必须制作单独的培训和测试集。在分类器的训练期间从未看到测试集。否则,您无法获得有意义的评估。或者你没有机器学习问题。
F-measure似乎表明内存分类器要好得多。然而,理想的分类器是真正解决问题的分类器:正确标记所有正面和所有负面例子。
如果您的问题足够复杂,您将无法获得完美的分类器。但是,如果没有关于您的问题的更多信息,我就无法详细说明。