用概率标记数据学习理论

时间:2012-07-30 12:29:14

标签: machine-learning

是否有关于使用模糊/概率标记数据的理论?例如,是否可以对训练数据进行分类,而训练数据只能估计不同训练数据组的概率是否为真?

示例:

  • 训练数据点 a1,a2 :90%true
  • 训练数据点 b2,b2 :50%真实
  • 训练数据点 c1,c2 :30%true

并且您想知道新数据点 d 是真还是假(或者可能具有什么概率)?基于某些相似性度量与训练数据 a-c

2 个答案:

答案 0 :(得分:0)

听起来像古典贝叶斯问题,不是吗?

就像给定的鱼是90%的鲈鱼和50%的鲑鱼一样,没有任何额外的信息?

这将导致任何学习算法对A类进行分类,以最大限度地减少任何样本的错误。

答案 1 :(得分:0)

例如聚类(GMM或示例)中的部分成员资格,其中每个数据点都有关于在每个类中放置概率的dirichlet分布。

或者“使用标签噪音学习”中的某些内容可以为您提供答案,大多数学习者理论上都期待清晰标记的数据,但是使用噪声标签背后有一些理论: Learning_with_Label_Noise

修改

不确定的证据或软证据。

对于模型p(x,y),我们有y'是关于y的软证据,哪个是计算p(x | y')然后

p(x | y')= sum_y p(x,y | y')= sum_y p(x | y,y')p(y | y')= sum_y p(x | y)p(y | y')的

其中,有证据证明p(y | y')= dirac(y-y')

的特殊情况