我有两个类,第一类有1000个文档,第二类有40000个文档。文件由文本组成。 我想在神经网络中使用这些文本。但当然存在不平衡的数据集问题。每个分类器都会通过所有文档进入第二级并说出#34;我的准确率高达97.5%。
您是否知道是否有任何实现可以检查第二类中的文档相似性以及它们的类型,然后只删除每个簇的文档与其簇大小成比例?
或者您是否了解具有相同目标的类似方法?
答案 0 :(得分:2)
我对您的评论的理解是,您有50,000个文件被标记为积极或消极的情绪。您希望通过聚类文档并从每个集群中选择一小部分文档,将较大的类从40k减少到10k。
如果这是对的,下面的方法应该做你想要的吗?
也就是说,我同意gerowam的观点,即随机下采样策略可能更容易,更快,并且可能同样有效,但欢迎您尝试并报告。