结直肠癌数据阶段的多类分类

时间:2017-05-14 14:03:45

标签: machine-learning bioinformatics multiclass-classification

我正在使用基因表达数据进行结直肠癌阶段多类分类的项目。我的数据集包含11个生物标记。分类结果约为40%。我已经尝试过使用KNN,SVM,神经网络进行分类的不同模型......我也尝试过集成机器学习的算法。有谁知道如何处理数据集以改善结果?

1 个答案:

答案 0 :(得分:0)

要决定下一步该做什么,您需要一些指标:

  1. 人类专家团队如何对数据进行分类?
  2. 训练数据集的模型准确度是多少?
  3. 测试数据集的模型准确度是多少?
  4. 如果训练准确性比人类专家差很多,则应该增加模型的复杂性,直到训练结果接近或超过人类专家。您可以通过增加输入要素的数量,选择不同的机器学习模型或增加NN中的层数来实现此目的。如果训练准确性差,则需要先花费时间来提高测试精度。

    如果训练精度良好但测试精度比训练精度差,则可能过度拟合。获取或创建更多培训数据,并使用正规化。