应用错误收集

特征分布几乎是正常的：这对我的ML模型意味着什么？

时间：2019-01-07 09:47:06

标签： machine-learning statistics

我的锻炼陈述是：distribution of feature_3 is a hint of how the data is generated。我试图了解我应该从其余的ETL或ML模型中得出的结论。

我已绘制了此功能的Q-Q图。分布似乎很正常。对于其余的ETL或ML模型，我可以从这些信息中推断出什么？

1 个答案:

答案 0 :(得分：2)

大多数机器学习模型都假定基础数据分布良好，以使其正常运行。

因此，回到您的问题，有些ML技术假定馈入其中的数据是正态分布（或高斯分布）的。这些是Gaussian naive Bayes，Least Squares based (regression)模型，LDA，QDA。因此，您所引用的语句意味着您的数据是使用这种算法生成的，并且是正态分布的。参见here对此进行了简短的视觉解释，而here则对Machine Learning中正态分布的重要性进行了解释。

此外，请注意，还有其他算法（例如SVM / Random Forests，regression，{{1 }}等）不假定任何类型的基础数据分发。