在正常情况下,我之前尝试过朴素贝叶斯和线性SVM来分类与某些特定类型的评论相关的数据,这些评论与某些页面相关,我可以访问手动标记并归类为垃圾邮件或火腿的培训数据。
现在我被告知要检查是否有任何方法可以将评论分类为垃圾邮件而我们没有培训数据。比如为数据获取两个集群,将其标记为垃圾邮件或火腿,并提供任何数据。
我需要知道解决这个问题的某些方法,以及实现这个问题的好方法。
我还在学习和试验。任何帮助将不胜感激
答案 0 :(得分:2)
在词汇方面,新评论与旧评论有很大不同吗?因为单词几乎是这个任务的分类器所看到的一切。
您始终可以尝试使用旧的训练数据并将分类器应用于新域。您必须在新域中标记一些示例以衡量性能(或更好,让其他人进行标记以获得更可靠的结果)。
如果效果不佳,您可以尝试domain adaptation或者使用Google或查看this垃圾/火腿语料库来查找与您的新域名更相似的数据集。
最后,您的新设置可能会有一些规律性或模式,例如:评论的下注,可能表明垃圾邮件/火腿。在这种情况下,您可以自己编译训练数据。这将被称为远程监督(您可以使用此关键字搜索论文)。
答案 1 :(得分:1)
我能得到的最好的是research work提及主动学习。所以我想到的是我第一次执行Kmeans聚类并获得了中心聚类(假设有5个聚类,我按照长度顺序递减3个聚类)并从每个聚类中获取1000个消息。然后我会指定它由用户标记。下一个过程是使用标记数据的逻辑回归进行训练并获得未标记数据的概率,然后如果我有接近0.5的概率或0.4到0.6的范围,这意味着我不确定我会将其指定为标记然后这个过程将继续下去。