网页的二进制分类,其中类别中的数据非常相似

时间:2013-12-16 17:18:45

标签: machine-learning classification

我正在研究与我感兴趣的主题相关的网页二进制分类。我想分类网页是否属于某个类别。我手动标记了包含2个类别positivenegative的数据集。但是,我在这里关注的是当我看到每个类别的词袋时,功能非常相似。 positivenegative网页确实非常接近(内容明智)。

更多信息 - 内容是英文,我们也在删除停用词。

我该如何完成这项任务?是否有可以应用于此问题的不同方法? 谢谢!

1 个答案:

答案 0 :(得分:1)

您可以使用成对的连续单词而不是单个单词(成对单词包)。希望是这对单词可以更好地捕捉您所追求的概念。接下来可能会出现三连词。问题在于维度非常高(N ^ 2)。如果你无法负担,那么一个想法就是使用散列技巧(检查关于随机投影/散列的文献)对词对进行约束维度。