标签: machine-learning statistics linear-regression lasso
我正在尝试使用LASSO对女性基因组进行预测。我绘制了高度直方图。结果如下。
回归要求数据是正常的。如果两个峰之间的凹陷不那么深,则直方图的形状看起来像正态分布。我想知道是什么原因造成的。 164和165之间的高度频率小于100,而165-166之间的高度频率小于40,这是没有意义的,但是168-169之间的高度频率又回到了近100。这是否表示我们需要更多的数据?或是否有任何合理的原因导致此?有什么好的技术可以使此数据集更正常?任何帮助表示赞赏。