我使用的数据集包含2个类别(95%,5%)。
这两个类的功能几乎具有相同的分布。
问题是:如何对这两个类进行分类并解释该模型用于对测试集进行分类的原理?
答案 0 :(得分:0)
实际上,要素的分配是有意义的,但是与要素的简单分配相比,您必须进行更详细的探索性分析。我建议看看一些3D图。您可以查看有关EDA的一些链接:
https://www.kaggle.com/dejavu23/titanic-eda-to-ml-beginner
https://www.kaggle.com/dejavu23/house-prices-eda-to-ml-beginner
关于分类模型,我建议使用基于Decision Tree
的模型,例如Random Forest
或Gradient Tree Boosting
。
Decision Tree
背后的想法是特征空间的划分,并对特征空间的每个部分进行相同的预测。您可以使用一些软件包来绘制决策树,这将有助于理解模型背后的原理。您可以在精美的书中详细了解所有这些模型:
http://www-bcf.usc.edu/~gareth/ISL/
链接到软件包:
https://lightgbm.readthedocs.io/en/latest/
https://scikit-learn.org/stable/modules/tree.html
https://scikit-learn.org/stable/modules/ensemble.html
您可以阅读有关决策树可视化的信息:
https://medium.com/@rnbrown/creating-and-visualizing-decision-trees-with-python-f8e8fa394176
https://www.kaggle.com/willkoehrsen/visualize-a-decision-tree-w-python-scikit-learn