插值的权重

时间:2013-07-10 10:29:46

标签: nlp artificial-intelligence probability interpolation mathematical-optimization

我正在学习This site的自然语言处理。

我被困在插值视频中。

教授说:P'(W n | W n-1 ,W n-2 )=λ 1 * P(W n | W n-1 ,W n-2 )+λ 2 * P(W n | W n-1 )+λ 3 * P(W n

然后他告诉:要设置lambdas,你需要一个'保持'的数据集,找到最大化该组数据概率的lambda。

这是否意味着你遍历所有可能的数字(无穷大),然后找出哪一个最大化概率?

那不可能吗?那么你如何选择lambdas。找到增加概率的lambda很容易,但发现概率很容易,但选择lambda是一件大事。

请帮我选择lambdas!

提前谢谢!!

2 个答案:

答案 0 :(得分:2)

这是一个半教育的猜测,但看起来他正在做的是迭代地改进他对P(Wn | Wn-1,Wn-2)的函数,使用该函数的先前估计,以及估计P(Wn | Wn-1)和P(Wn)。他假设新函数是旧函数的加权和,并且那些λ值是权重。这些权重必须总和为1。

你的工作是找到最好的一组重量。

你解决了那种问题,不是通过循环通过λ值(正如你正确的直觉)而是通过数学。如果不了解这些功能的结构,很难说更多有用的功能。

如果你很幸运,你可以找到一个相对简单的微积分表达式来做到这一点。如果你运气不好,这将是一个相对复杂的过程,涉及(或许)拉格朗日乘数的方法。它甚至可能没有明显的封闭形式表达,导致各种爬山,期望最大化或其他技术。我真的不敢说。

答案 1 :(得分:1)

根据单词重要性的顺序设置权重,但要确保权重加1,因为概率不能超过1。