我有一个庞大的蛋白质数据集。具有9800个功能和大约1700个类别标签。每个样本可以具有4个或5个类别标签。我已经设计了模型并进行了初步培训。我得到了很高的准确度,这是我知道的原因。 我的问题是,哪种优化程序和损失函数可以准确获得良好的结果。另外,任何人都可以帮助我使用自定义精度度量标准,因为它需要基于张量,因此事实证明有些棘手。
答案 0 :(得分:0)
如果单独使用精度,则不是分类问题的好指标。检查confusion matrix是什么。 首先检查您的班级是否平衡。损失函数的选择在很大程度上取决于此。 想象一个由90个观测值组成的数据集,其中0个标记为0,10个标记为1。始终选择0的分类器即使有可能是最差的分类器,也可以达到90%的精度。
优化器不是很重要。只是去找亚当。当您的模型产生有趣的结果时,您可以调整优化器。