应用错误收集

绘制哪些数据才能知道哪种模型最适合该问题？

时间：2020-01-12 15:18:09

标签： python machine-learning plot prediction

很抱歉，我知道这是一个非常基本的问题，但是由于我仍然是机器学习的初学者，因此确定最适合我的问题的模型仍然让我感到困惑，最近我使用了线性回归模型（导致r2_score太低），用户提到我可以根据数据曲线绘制某种模型，而当我看到另一个编码器时，则使用随机森林回归（导致r2_score有30％比线性回归模型更好），而且我不知道他/她如何更好地了解模型，因为他/她没有提及。我的意思是，在我阅读的大多数站点中，他们将数据推送到他们认为最适合该问题的某些模型中（例如：对于回归问题，这些模型可能使用线性回归或随机森林回归），但在某些站点中，有些人们首先说，我们需要对数据进行绘图，以便可以预测出最适合哪种模型。我真的不知道我应该绘制数据的哪一部分？我以为使用seaborn pairplot可以使我了解曲线的形状，但是我怀疑这是正确的方法，我应该实际绘制什么？仅标签本身或功能本身还是两者？以及如何获得曲线的洞察力以了解可能的最佳模型？

2 个答案:

答案 0 :(得分：1)

这个问题太笼统了，但是我将尝试概述如何选择模型。首先，您应该没有选择使用的模型系列的一般规则，而是通过试验不同的模型并寻找哪种模型可以提供更好的结果来进行选择。现在，您还应该总体上拥有多维特征，因此绘制数据并不能全面了解特征与目标的依赖性，但是要检查是否要拟合线性模型，您可以可以开始绘制目标与输入的每个维度的关系图，并查看是否存在某种线性关系。但是，我建议您拟合线性模型，并从统计角度检查这是否相对（学生测试，smirnov测试，检查残差...）。请注意，在现实生活中，除非您进行了大量的工程设计工作，否则线性回归并不是最好的模型。因此，我建议您使用更高级的方法（RandomForests，XGboost ...）

答案 1 :(得分：0)

如果您使用的是sklearn之类的现成软件包，那么许多简单的模型（例如SVM，RF等）都只是一类，因此在实践中，我们通常会同时尝试多个这样的模型时间。