学习最优参数以最大化奖励

时间:2011-04-05 19:14:29

标签: statistics machine-learning regression

我有一组示例,每个示例都使用要素数据进行注释。示例和特征描述了任意域中的实验设置(例如,交换机数量,执行天数,参与者数量等)。某些特征是固定的(即静态的),而其他特征我可以在未来的实验中手动设置(即变量)。每个例子还有一个“奖励”功能,这是一个在0和1之间的连续数字,表示由专家确定的实验成功。

基于此示例集,并为将来的实验提供一组静态功能,如何确定用于特定变量的最佳值,以便最大化奖励?

此外,此过程是否有正式名称?我做了一些研究,这听起来与regression analysis类似,但我仍然不确定它是否是同一个东西。

1 个答案:

答案 0 :(得分:1)

该过程称为“design of experiments”。根据参数的数量,可以使用各种技术,以及您是否能够在试验之间进行计算,或者是否必须提前选择所有治疗方法。

根据实验数据建立回归模型后,您可以通过应用常用的数值优化技术找到最佳模型。