我应该使用分类或回归模型来表现离散值吗?

时间:2017-07-14 16:19:42

标签: classification regression correlation

我正在分析操作机器的性能。控制参数包括许多作为燃料流量,温度,振动,湿度等。评估性能结果只有2个值:成功或失败。我想确定控制参数和性能结果之间是否存在关系(或相关性)。我应该使用分类或回归来解决这个问题吗?我应该使用什么型号? 谢谢。

2 个答案:

答案 0 :(得分:3)

这是一个分类问题,因为您希望学习将一组参数分类为成功或失败。

关于相关性,您可以将数据加载到Pandas数据帧中并运行df.corr()。这将显示您的变量的相关性。

关于模型,您可以使用scikit-learn的最近邻分类器或支持向量机。 scikit-learn的库有现成的实现。

如果要预测这些参数的未来值,将使用回归。

答案 1 :(得分:-1)

如果您想分类(失败,成功),您可以使用分类方法 在这种情况下,您将使用部分数据进行训练,然后使用看不见的(测试)数据进行预测。

一些方法:

LinearDiscriminantAnalysis (LDA)

LinearSVC

SVC in general

如果您想探索变量之间的相关性,可以使用其他方法:

Pearson correlation

Spearman correlation

如果您使用pandas模块link here,您可以加载名称为df的数据,然后使用:

df.corr()

获得变量之间的相关性。

P.S:如果您上传数据,我可以提供示例。