我刚接到一个面试问题。
"假设您要构建统计或机器学习模型,但手头的数据非常有限。你的老板告诉你可以多次复制原始数据,以便为构建模型制作更多数据"这有帮助吗?
直观地说,它没有帮助,因为复制原始数据并不能创造更多的信息"喂模型。
但有没有人可以更统计地解释它?谢谢
答案 0 :(得分:1)
考虑例如方差。具有重复数据的数据集将具有完全相同的方差 - 之后您没有更精确的分布估计。
然而,有一些例外。例如,引导程序验证有助于评估模型,但数据非常少。
答案 1 :(得分:0)
嗯,这完全取决于通过"复制数据"的具体含义。
如果一个人正在完全复制整个数据集,那么基于最大似然的方法(与常用的许多模型一样)必须找到完全相同的结果,因为重复数据的对数似然函数恰好是多重的非重复数据的对数似然,因此具有相同的最大值。 (这个论点并不适用于不基于似然函数的方法;我相信CART和其他树模型以及SVM都是这样的模型。在这种情况下,你是'我必须找出一个不同的论点。)
然而,如果通过复制,一个意味着复制分类问题中的正例(这是常见的,因为通常存在比正数更多的负面例子),那么这确实有所不同,因为似然函数被修改
此外,如果一个意味着自举,那么这也会产生影响。
PS。可能你会在stats.stackexchange.com上对这个问题有更多兴趣。