结合条件分类器概率

时间:2019-10-08 13:47:30

标签: classification probability probability-theory

我有几个文档分类器试图预测文档的正确文档类型。对于给定的文件,每个分类器输出每种文档类型的概率列表。我正在尝试将这些不同分类器的预测合并到一个概率列表中。

由于我希望能够手动确定每个分类器的可信度/影响力,因此我开始使用加权平均值来组合预测。

如果我们看一个带有三个分类器(一个,两个,三个)和三个文档类型(T1,T2,T3)的示例。使用加权平均法,我可以计算 Presult(T1) = (1 * Pone(T1) + 2 * Ptwo(T1) + 2 * Pthree(T1)) / (1 + 2 + 2) = 0.5

╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║  P(T1)  ║  P(T2)  ║  P(T3)  ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One        ║      1      ║   0.7   ║   0.1   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two        ║      2      ║   0.8   ║   0.0   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three      ║      2      ║   0.1   ║   0.2   ║   0.7   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results    ║      /      ║   0.5   ║   0.1   ║   0.4   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝

这种简单的方法似乎可行,但是事情变得更加复杂。

实际上,我的一些分类器是专门的:它们不适用于整个输入域(文档类型的完整列表),而不适用于子域。例如,我可能有一个分类器,给定IRS格式,它可以确定文档的相应概率是W-2,W-3或1040格式。在那种情况下,输出概率是条件概率。

让我们说分类器2和3是专门的分类器。分类器2仅适用于T1和T2类型,分类器3仅适用于T2和T3类型。我的新表可能如下所示:

╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║  P(T1)  ║  P(T2)  ║  P(T3)  ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One        ║      1      ║   0.5   ║   0.3   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two        ║      2      ║   0.2   ║   0.8   ║   N/A   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three      ║      2      ║   N/A   ║   0.4   ║   0.6   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results    ║      /      ║    ?    ║    ?    ║    ?    ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝

但是,在那种情况下,使用加权平均值来计算最终概率实际上没有任何意义,因为我们将在不同的域上添加概率。我尝试起草了几种方法,但找不到任何适合的方法。您对将这些不同的预测组合为一个的现有方法有任何想法或指示吗?

感谢您阅读;)

PS:对这个问题缺乏数学形式表示歉意,但不确定如何正确编写它。

0 个答案:

没有答案