Question

我有几个文档分类器试图预测文档的正确文档类型。对于给定的文件，每个分类器输出每种文档类型的概率列表。我正在尝试将这些不同分类器的预测合并到一个概率列表中。

由于我希望能够手动确定每个分类器的可信度/影响力，因此我开始使用加权平均值来组合预测。

如果我们看一个带有三个分类器（一个，两个，三个）和三个文档类型（T1，T2，T3）的示例。使用加权平均法，我可以计算 Presult(T1) = (1 * Pone(T1) + 2 * Ptwo(T1) + 2 * Pthree(T1)) / (1 + 2 + 2) = 0.5

╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║  P(T1)  ║  P(T2)  ║  P(T3)  ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One        ║      1      ║   0.7   ║   0.1   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two        ║      2      ║   0.8   ║   0.0   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three      ║      2      ║   0.1   ║   0.2   ║   0.7   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results    ║      /      ║   0.5   ║   0.1   ║   0.4   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝

这种简单的方法似乎可行，但是事情变得更加复杂。

实际上，我的一些分类器是专门的：它们不适用于整个输入域（文档类型的完整列表），而不适用于子域。例如，我可能有一个分类器，给定IRS格式，它可以确定文档的相应概率是W-2，W-3或1040格式。在那种情况下，输出概率是条件概率。

让我们说分类器2和3是专门的分类器。分类器2仅适用于T1和T2类型，分类器3仅适用于T2和T3类型。我的新表可能如下所示：

╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║  P(T1)  ║  P(T2)  ║  P(T3)  ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One        ║      1      ║   0.5   ║   0.3   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two        ║      2      ║   0.2   ║   0.8   ║   N/A   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three      ║      2      ║   N/A   ║   0.4   ║   0.6   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results    ║      /      ║    ?    ║    ?    ║    ?    ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝

但是，在那种情况下，使用加权平均值来计算最终概率实际上没有任何意义，因为我们将在不同的域上添加概率。我尝试起草了几种方法，但找不到任何适合的方法。您对将这些不同的预测组合为一个的现有方法有任何想法或指示吗？

感谢您阅读;）

PS：对这个问题缺乏数学形式表示歉意，但不确定如何正确编写它。

结合条件分类器概率

0 个答案: