数据集是否需要是每个参数的正态分布?

时间:2017-01-12 09:42:06

标签: machine-learning

抱歉,我刚刚开始学习机器,而且不是任何专家。所以,这个问题很可能听起来无知,我恐怕无法避免。此外,我尽我所能搜索,无法找到可能解决我问题的类似问题或答案。

我了解到,如果模型不是来自具有正态分布的数据集,则模型无法学习。此外,我用来发现数据集是正态分布的唯一方法是为每个参数描述here的图形方法。这可能是不可取的,如果是这样,我总是可以改变,所以如果是这样,请纠正我。

要了解我的问题,如果我看到某些参数的正态分布 但是对于其他一些人来说,这是否意味着数据集存在缺陷?或者这是否意味着我不应该将这些参数用于模型?

提前致谢,如果我对这些概念的理解存在任何根本性错误,那就很抱歉。

1 个答案:

答案 0 :(得分:1)

正如cel所说,每个模型都有自己的假设和局限。 虽然可能有一个模型只能学习完全正态分布的数据 - 但是有很多模型没有,例如SVM或随机森林。

实际上,如果您知道您的数据不符合模型的假设,您可以考虑使用不同的模型或操纵您的数据以适合您的假设。 后一种选择是您应该仔细考虑的事项,以确保您的操作在现实生活场景中使用时不会使您的模型无用。