将文本文件拆分为两组 - 无监督学习

时间:2017-05-18 18:46:14

标签: text-classification unsupervised-learning

想象一下,你是一名图书管理员,并且在你的时间里 分类了一堆文本文件(约100) 使用一般模糊的关键字。

每个文本文件实际上都是keyword_meaning1的主题 或关键字_meaning2。

的主题

您会使用哪种无监督学习方法, 将文本文件分成两组?

正确分类的精确度(百分比) 可以根据一些文本文件来实现吗?

或者可以某种方式在一组中表明,有 需要图书管理员来检查某些文件,因为 他们可能被错误地分类了?

1 个答案:

答案 0 :(得分:1)

最简单的出发点是使用朴素的贝叶斯分类器。很难推测预期的精度。你必须自己测试一下。只需获取电子邮件垃圾邮件检测程序并试用即可。例如,SpamBayes(http://spambayes.sourceforge.net/)是一个非常好的起点,很容易被破解。 SpamBayes有一个很好的功能,当两个类之间没有明确的分离时,它会将消息标记为“不确定”。

编辑:如果你真的想要无监督的聚类方法,那么像Carrot2(http://project.carrot2.org/)这样的东西可能更合适。