我正在使用基因表达数据进行结直肠癌阶段多类分类的项目。我的数据集包含11个生物标记。分类结果约为40%。我已经尝试过使用KNN,SVM,神经网络进行分类的不同模型......我也尝试过集成机器学习的算法。有谁知道如何处理数据集以改善结果?
答案 0 :(得分:0)
要决定下一步该做什么,您需要一些指标:
如果训练准确性比人类专家差很多,则应该增加模型的复杂性,直到训练结果接近或超过人类专家。您可以通过增加输入要素的数量,选择不同的机器学习模型或增加NN中的层数来实现此目的。如果训练准确性差,则需要先花费时间来提高测试精度。
如果训练精度良好但测试精度比训练精度差,则可能过度拟合。获取或创建更多培训数据,并使用正规化。