想象一下,你是一名图书管理员,并且在你的时间里 分类了一堆文本文件(约100) 使用一般模糊的关键字。
每个文本文件实际上都是keyword_meaning1的主题 或关键字_meaning2。
的主题您会使用哪种无监督学习方法, 将文本文件分成两组?
正确分类的精确度(百分比) 可以根据一些文本文件来实现吗?
或者可以某种方式在一组中表明,有 需要图书管理员来检查某些文件,因为 他们可能被错误地分类了?
答案 0 :(得分:1)
最简单的出发点是使用朴素的贝叶斯分类器。很难推测预期的精度。你必须自己测试一下。只需获取电子邮件垃圾邮件检测程序并试用即可。例如,SpamBayes(http://spambayes.sourceforge.net/)是一个非常好的起点,很容易被破解。 SpamBayes有一个很好的功能,当两个类之间没有明确的分离时,它会将消息标记为“不确定”。
编辑:如果你真的想要无监督的聚类方法,那么像Carrot2(http://project.carrot2.org/)这样的东西可能更合适。