使用不同的方法,我得分文件&这是标题。现在我想将所有这些分数汇总成单一分数(置信度分数)。我想使用无监督的方法。我希望在概率或百分比方面得分。
这里,M =方法号,TS =文件标题得分,CS =文件内容得分
例如1
Doc1(预期置信度得分接近0)
M - TS - CS
1 - 0.03 - 0.004
2 - 0.054 - 0.06
3 - 0.09 - 0.12
Doc2(预期置信度得分接近1)
M - TS - CS
1 - 0.50 - 0.63
2 - 0.74 - 0.90
3 - 0.615 - 0.833
在这里,我的hypothis是对于document-1,置信度得分应该为0,对于document-2,置信度应该接近1。
所有文件的所有文件的得分也可能较低(例如2),因此所有文件的置信度得分应接近于零。
eg.2
Doc1(预期置信度得分接近0)
M - TS - CS
1 - 0.03 - 0.004
2 - 0.054 - 0.06
3 - 0.09 - 0.12
Doc2(预期置信度得分接近0)
M - TS - DS
1 - 0.001 - 0.003
2 - 0.004 - 0.005
3 - 0.0021 - 0.013
任何人都可以解释我或提供一些资源来计算置信度得分吗?
答案 0 :(得分:0)
如何添加/获取标题分数的平均值(因为它们具有相同的比例)和所有方法的内容分数,所以现在您将拥有单个标题分数和单个内容得分了。
要获得文档的单个分数,您必须合并标题和内容分数。要做到这一点,您可以采用加权平均值(您必须确定权重),或者您可以将这些得分相乘以获得单个指标。虽然这些可能不会接近零或一,但是你的要求
作为替代方法,您可以使用添加/平均的标题分数和内容分数创建数据集,并使用零和1手动创建置信度分数列。使用此数据,您可以构建逻辑回归模型,以使用0和1的置信度分数对文档进行分类。这将为您提供权重,并更深入地了解您实际需要的内容