我为我的lstm超参数做了贝叶斯超参数优化的一些实验。
我使用一种方法,使用高斯过程和TPE算法对错误进行建模。 他们工作得很好。
我想知道这些策略在哪里被称为“贝叶斯”。 在超参数优化的情况下,谁能解释“贝叶斯”的含义?
谢谢
答案 0 :(得分:0)
首先,Gaussian processes fall under the domain of Non-parametric Bayesian learning models意味着它们通常被认为是贝叶斯模型。另一方面,树状结构的Parzen估计器从根本上依赖贝叶斯规则:它对p(x|y)
和p(y)
进行建模,我们可以使用它们通过贝叶斯规则来获得p(y|x)
。
但是,无论人们何时提及贝叶斯优化,他们都在谈论搜索方法本身。 如果某事涉及(1)概率先验信念和(2)当获取新证据时更新其信念的原则性方法,则为贝叶斯。 例如,GP构成了功能的先验,以及更新后验(获取新证据后的新分布)的一种方式,这正是我们想要贝叶斯ML。
通常,要做的是从(超)参数空间的贝叶斯先验开始(编码关于性能的先验信念)。
我们定义一个获取函数 a(x)
,它可以帮助我们选择接下来要查看的参数。由于我们具有概率贝叶斯模型,因此我们具有不确定性的概念:例如,我们可能知道模型在特定点的预测分布的方差。在远离我们的观察点的点,方差会很大,而在远离我们的观察点的点,方差会很小。换句话说,我们有一个分布p(y|x)
。这种对不确定性的明确解释是贝叶斯方法的巨大优势。
获取功能a(x)
通常必须权衡两个因素:(1)不确定性,因为在不确定区域中可能存在我们尚未见过的“隐藏的宝石”,以及(2)经验证的性能(即,我们应该停留在我们观察到我们知道自己是“好”的空间区域附近)。因此,可以设计a(x)
以使分布中的熵(不确定性)最小化,或使贝叶斯惊奇最大化,这意味着“选择要在观察时引起后验分布最大变化的点”。在强化学习中使用类似的方法进行探索(搜索“贝叶斯惊奇”或“好奇心”);通常将涉及更新“后验信念”的任何此类方法视为贝叶斯方法。
TLDR:之所以称为贝叶斯,是因为它们涉及先验后迭代地更新后置概率作为信念。