下采样文本文件

时间:2017-01-26 15:29:31

标签: machine-learning nlp text-mining downsampling

我有两个类,第一类有1000个文档,第二类有40000个文档。文件由文本组成。 我想在神经网络中使用这些文本。但当然存在不​​平衡的数据集问题。每个分类器都会通过所有文档进入第二级并说出#34;我的准确率高达97.5%。

您是否知道是否有任何实现可以检查第二类中的文档相似性以及它们的类型,然后只删除每个簇的文档与其簇大小成比例?

或者您是否了解具有相同目标的类似方法?

1 个答案:

答案 0 :(得分:2)

我对您的评论的理解是,您有50,000个文件被标记为积极或消极的情绪。您希望通过聚类文档并从每个集群中选择一小部分文档,将较大的类从40k减少到10k。

如果这是对的,下面的方法应该做你想要的吗?

  • 为40k文档生成TF-IDF表示。 (您可以从已识别的关键字集中进行TF-IDF表示。)
  • 应用凝聚层次聚类技术,直到您只剩下10k个分支。您可以使用TF-IDF向量之间的余弦相似性作为相似度量,并使用质心作为文档组的TF-IDF向量。 (如果实现自己:记住你可以在几轮之间保留几乎所有的成对相似度计算,或者你会做很多不必要的重新计算!)
  • 从包含多个文档的每个群集中,选择一个要保留的文档。

也就是说,我同意gerowam的观点,即随机下采样策略可能更容易,更快,并且可能同样有效,但欢迎您尝试并报告。