在机器翻译中,序列到序列模型已经变得非常流行。他们经常使用一些技巧来提高性能,例如集合或平均一组模型。这里的逻辑是,错误将平均超出"。
据我了解,平均模型只是取X模型参数的平均值,然后创建一个可用于解码测试数据的模型。 整合,但平均每个模型输出。这需要更多的资源,因为X模型必须提供输出,而平均模型只在测试数据上运行一次。
这到底有什么区别?输出有何不同?在我的测试中,两种方法都比基线分数有了小的和类似的改进。这让你想知道为什么人们为了合奏而烦恼,如果他们也可以平均。然而,在我遇到的所有神经机器翻译论文中,人们谈论的是集合而不是平均。为什么是这样?有没有关于平均的论文(特别是seq2seq和机器翻译相关论文)?
非常感谢任何帮助!
答案 0 :(得分:0)
集成是一个更通用的术语。 Bagging 和提升是整体方法的示例。
例如,随机森林不只是对决策树进行平均,而是使用bagging - 首先随机抽样数据和特征,然后对其进行训练(使用所有数据/特征没有多大意义,因为树木会非常相似的。)