是否有关于使用模糊/概率标记数据的理论?例如,是否可以对训练数据进行分类,而训练数据只能估计不同训练数据组的概率是否为真?
示例:
并且您想知道新数据点 d 是真还是假(或者可能具有什么概率)?基于某些相似性度量与训练数据 a-c 。
答案 0 :(得分:0)
听起来像古典贝叶斯问题,不是吗?
就像给定的鱼是90%的鲈鱼和50%的鲑鱼一样,没有任何额外的信息?
这将导致任何学习算法对A类进行分类,以最大限度地减少任何样本的错误。
答案 1 :(得分:0)
例如聚类(GMM或示例)中的部分成员资格,其中每个数据点都有关于在每个类中放置概率的dirichlet分布。
或者“使用标签噪音学习”中的某些内容可以为您提供答案,大多数学习者理论上都期待清晰标记的数据,但是使用噪声标签背后有一些理论: Learning_with_Label_Noise
不确定的证据或软证据。
对于模型p(x,y),我们有y'是关于y的软证据,哪个是计算p(x | y')然后
p(x | y')= sum_y p(x,y | y')= sum_y p(x | y,y')p(y | y')= sum_y p(x | y)p(y | y')的
其中,有证据证明p(y | y')= dirac(y-y')
的特殊情况