我有几个文档分类器试图预测文档的正确文档类型。对于给定的文件,每个分类器输出每种文档类型的概率列表。我正在尝试将这些不同分类器的预测合并到一个概率列表中。
由于我希望能够手动确定每个分类器的可信度/影响力,因此我开始使用加权平均值来组合预测。
如果我们看一个带有三个分类器(一个,两个,三个)和三个文档类型(T1,T2,T3)的示例。使用加权平均法,我可以计算
Presult(T1) = (1 * Pone(T1) + 2 * Ptwo(T1) + 2 * Pthree(T1)) / (1 + 2 + 2) = 0.5
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║ P(T1) ║ P(T2) ║ P(T3) ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One ║ 1 ║ 0.7 ║ 0.1 ║ 0.2 ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two ║ 2 ║ 0.8 ║ 0.0 ║ 0.2 ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three ║ 2 ║ 0.1 ║ 0.2 ║ 0.7 ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results ║ / ║ 0.5 ║ 0.1 ║ 0.4 ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
这种简单的方法似乎可行,但是事情变得更加复杂。
实际上,我的一些分类器是专门的:它们不适用于整个输入域(文档类型的完整列表),而不适用于子域。例如,我可能有一个分类器,给定IRS格式,它可以确定文档的相应概率是W-2,W-3或1040格式。在那种情况下,输出概率是条件概率。
让我们说分类器2和3是专门的分类器。分类器2仅适用于T1和T2类型,分类器3仅适用于T2和T3类型。我的新表可能如下所示:
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║ P(T1) ║ P(T2) ║ P(T3) ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One ║ 1 ║ 0.5 ║ 0.3 ║ 0.2 ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two ║ 2 ║ 0.2 ║ 0.8 ║ N/A ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three ║ 2 ║ N/A ║ 0.4 ║ 0.6 ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results ║ / ║ ? ║ ? ║ ? ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
但是,在那种情况下,使用加权平均值来计算最终概率实际上没有任何意义,因为我们将在不同的域上添加概率。我尝试起草了几种方法,但找不到任何适合的方法。您对将这些不同的预测组合为一个的现有方法有任何想法或指示吗?
感谢您阅读;)
PS:对这个问题缺乏数学形式表示歉意,但不确定如何正确编写它。