应用错误收集

时间：2017-05-14 14:03:45

标签： machine-learning bioinformatics multiclass-classification

我正在使用基因表达数据进行结直肠癌阶段多类分类的项目。我的数据集包含11个生物标记。分类结果约为40％。我已经尝试过使用KNN，SVM，神经网络进行分类的不同模型......我也尝试过集成机器学习的算法。有谁知道如何处理数据集以改善结果？

答案 0 :(得分：0)

要决定下一步该做什么，您需要一些指标：

如果训练准确性比人类专家差很多，则应该增加模型的复杂性，直到训练结果接近或超过人类专家。您可以通过增加输入要素的数量，选择不同的机器学习模型或增加NN中的层数来实现此目的。如果训练准确性差，则需要先花费时间来提高测试精度。

如果训练精度良好但测试精度比训练精度差，则可能过度拟合。获取或创建更多培训数据，并使用正规化。