我正在研究与我感兴趣的主题相关的网页二进制分类。我想分类网页是否属于某个类别。我手动标记了包含2个类别positive
和negative
的数据集。但是,我在这里关注的是当我看到每个类别的词袋时,功能非常相似。 positive
和negative
网页确实非常接近(内容明智)。
更多信息 - 内容是英文,我们也在删除停用词。
我该如何完成这项任务?是否有可以应用于此问题的不同方法? 谢谢!
答案 0 :(得分:1)
您可以使用成对的连续单词而不是单个单词(成对单词包)。希望是这对单词可以更好地捕捉您所追求的概念。接下来可能会出现三连词。问题在于维度非常高(N ^ 2)。如果你无法负担,那么一个想法就是使用散列技巧(检查关于随机投影/散列的文献)对词对进行约束维度。