简单机器学习问题(SVM,随机森林

时间:2019-05-18 12:36:25

标签: python pandas machine-learning scikit-learn sklearn-pandas

我正在尝试解决机器学习任务,但是遇到了一些问题。任何提示将非常感谢。我的问题之一是,如何为2个大小不同的数据框(2个标签的数据)创建一个相关矩阵,以查看是否可以将它们组合为一个。

这是任务的全文

此数据集由1100个样本组成,每个样本具有30个特征。第一列是样品编号。数据集中的第二列代表标签。标签有4个可能的值。其余的列是数字功能。

请注意,类之间是不平衡的:某些标签比其他标签更频繁。您需要确定是否考虑到这一点,如果要考虑的话。

比较支持向量机(由sklearn.svm.LinearSVC实现)和RandomForest(由sklearn.ensemble.ExtraTreesClassifier实现)的性能。尝试优化两种算法的参数,并确定最适合该数据集的参数。分析结束时,您应该选择一种算法及其最佳参数集。

我试图为基数较低的标签的行创建一个相关矩阵,但我不认为这是可靠的

我试图从带有标签1和2的行中制作两个新的数据帧。这2个标签中的每个标签都有100-150个条目,而标签0和3则为400个条目。我想检查是否有高在标记为1和2的数据之间建立关联,以查看是否可以将它们组合在一起,但不知道这是否是正确的方法。我试图通过将零附加到较小的1来使数据框具有相同的大小,然后对两个数据集进行相关矩阵处理。这是正确的方法

1 个答案:

答案 0 :(得分:0)

您的问题和方法不清楚。您可以用问题陈述和很少的数据集来修改问题吗?

如果您想可视化数据集,请将其绘制为2、3或4维。 这里有许多绘图工具,例如3D散点图,成对图,直方图等等。使用它们可以更好地了解您的数据集。