我的锻炼陈述是:distribution of feature_3 is a hint of how the data is generated
。我试图了解我应该从其余的ETL或ML模型中得出的结论。
我已绘制了此功能的Q-Q图。分布似乎很正常。对于其余的ETL或ML模型,我可以从这些信息中推断出什么?
答案 0 :(得分:2)
大多数机器学习模型都假定基础数据分布良好,以使其正常运行。
因此,回到您的问题,有些ML
技术假定馈入其中的数据是正态分布(或高斯分布)的。这些是Gaussian naive Bayes
,Least Squares based (regression)
模型,LDA
,QDA
。因此,您所引用的语句意味着您的数据是使用这种算法生成的,并且是正态分布的。参见here对此进行了简短的视觉解释,而here则对Machine Learning
中正态分布的重要性进行了解释。
此外,请注意,还有其他算法(例如SVM
/ Random Forests
,regression
,{{1 }}等)不假定任何类型的基础数据分发。