目前,我正在尝试在Python中实现基本的逻辑回归算法,以区分A与B.
对于我的训练和测试数据,我有大约50,000个A样本和1000个B样本。如果我使用每个样本的一半来训练算法而另一半用作测试数据,这是一个问题(25000次列车A,500列车B等测试精度)。
如果是这样,我该如何克服这个问题。我应该考虑重新采样,做一些其他的花哨的东西"。
答案 0 :(得分:2)
问题有多大取决于数据的性质。更大的问题是你只会有一个巨大的阶级不平衡(每个B都有50个)。如果你最终获得良好的分类准确性,那么很好 - 没什么可做的。下一步做什么取决于您的数据和问题的性质以及解决方案中可接受的内容。真的没有死定的#34;做到这一点"回答这个问题。