特征分布几乎是正常的:这对我的ML模型意味着什么?

时间:2019-01-07 09:47:06

标签: machine-learning statistics

我的锻炼陈述是:distribution of feature_3 is a hint of how the data is generated。我试图了解我应该从其余的ETL或ML模型中得出的结论。

我已绘制了此功能的Q-Q图。分布似乎很正常。对于其余的ETL或ML模型,我可以从这些信息中推断出什么?

1 个答案:

答案 0 :(得分:2)

大多数机器学习模型都假定基础数据分布良好,以使其正常运行。

因此,回到您的问题,有些ML技术假定馈入其中的数据是正态分布(或高斯分布)的。这些是Gaussian naive BayesLeast Squares based (regression)模型,LDAQDA。因此,您所引用的语句意味着您的数据是使用这种算法生成的,并且是正态分布的。参见here对此进行了简短的视觉解释,而here则对Machine Learning中正态分布的重要性进行了解释。

此外,请注意,还有其他算法(例如SVM / Random Forestsregression,{{1 }}等)不假定任何类型的基础数据分发。