当我们训练我们的模型时,我们通常使用MLE来估计我们的模型。我知道这意味着这种学习模型最可能的数据是我们的训练集。但是我想知道它的概率是否与1完全匹配?
答案 0 :(得分:5)
你几乎是对的。观测数据(theta
)的模型(X
)的可能性是观察X
的概率,给定theta
:
L(theta|X) = P(X|theta)
对于最大似然估计(MLE),您可以选择提供theta
最大值的P(X|theta)
的值。这并不一定意味着X
的观测值最有可能是theta
的MLE估计值。它只是意味着没有theta
的其他值可以为X
的观测值提供更高的概率。
换句话说,如果T1
是theta
的MLE估算值,如果T2
是theta
的任何其他可能值,那么P(X|T1) > P(X|T2)
。但是,仍然可能存在与观察到的数据(Y
)不同的数据(X
)的另一个可能值,即P(Y|T1) > P(X|T1)
。
X
的MLE估计theta
的概率不一定是1(并且可能永远不会是除了琐碎的情况)。这是预期的,因为X
可以采用具有非零概率的多个值。
答案 1 :(得分:3)
为了建立博加罗通过一个例子所说的内容,从MLE学到的参数是解释你看到的数据(而不是其他)最好的参数。不,概率不是1(除了琐碎的情况)。
作为MLE所做的一个例子(已被使用了数十亿次):
如果你有一个简单的掷硬币问题,并且你观察到硬币投掷的5个结果(H,H,H,T,H)并且你做了MLE,你将最终给出p(coin_toss == H)a概率很高(0.80),因为你看过Heads太多次了。关于MLE有好事和坏事显然......
优点:这是一个优化问题,因此通常解决起来非常快(即使没有分析解决方案)。 缺点:当没有大量数据时(例如我们的抛硬币例子)它可以过度填充。
答案 2 :(得分:2)
我在我的统计课程中得到的例子如下:
嫌犯正在逃跑!除了它们大约1m80高之外,对它们一无所知。警察应该找男人还是女人?
这里的想法是你的模型参数(M/F
)和概率给定参数。有高个子男人,高个子女人,矮个子男人和矮个子女人。然而,在没有任何其他信息的情况下,男性1m80的概率大于女性1m80的概率。可能性(因为bogatron非常好地解释)是对它的形式化,最大似然是基于有利于参数的估计方法,这些参数更多可能导致实际观察。
但这仅仅是一个玩具示例,只有一个二进制变量......让我们稍微扩展一下:我扔了两个相同的骰子,它们的值之和为7.多少边我的死了吗?好吧,我们都知道两个D6总和为7的概率非常高。但它也可能是D4,D20,D100,......但是,P(7 | 2D6) > P(7 | 2D20)
和P(7 | 2D6) > P(7 | 2D100)
...,所以你可能估计我的骰子是6-面对。这并不意味着它是正确的,但在没有任何其他信息的情况下,这是一个合理的估计。
那更好,但我们还没有进入机器学习领域......让我们到达那里:如果你想让你的umptillion层神经网络适合某些经验数据,您可以考虑所有可能的参数,以及可能每个参数如何返回经验数据。这是探索一个空间维度的空间,每个维度都有无限多种可能性,但你可以将这些点中的每一个映射到一个可能性。然后使用这些参数来拟合您的网络是合理的:假设经验数据确实发生了,可以合理地假设它们应该可能在您的模型下。
这并不代表您的参数可能!只是在这些参数下,观察值很可能。统计估计通常不是单个解决方案的封闭问题(比如求解方程式,并且你的概率为1),但我们需要找到最佳解决方案,根据 some 度量。可能性是一种度量标准,并且被广泛使用,因为它具有一些有趣的属性: