应用错误收集

将文本文件拆分为两组 - 无监督学习

时间：2017-05-18 18:46:14

标签： text-classification unsupervised-learning

想象一下，你是一名图书管理员，并且在你的时间里分类了一堆文本文件（约100）使用一般模糊的关键字。

每个文本文件实际上都是keyword_meaning1的主题或关键字_meaning2。

的主题

您会使用哪种无监督学习方法，将文本文件分成两组？

正确分类的精确度（百分比）可以根据一些文本文件来实现吗？

或者可以某种方式在一组中表明，有需要图书管理员来检查某些文件，因为他们可能被错误地分类了？

1 个答案:

答案 0 :(得分：1)

最简单的出发点是使用朴素的贝叶斯分类器。很难推测预期的精度。你必须自己测试一下。只需获取电子邮件垃圾邮件检测程序并试用即可。例如，SpamBayes（http://spambayes.sourceforge.net/）是一个非常好的起点，很容易被破解。 SpamBayes有一个很好的功能，当两个类之间没有明确的分离时，它会将消息标记为“不确定”。

编辑：如果你真的想要无监督的聚类方法，那么像Carrot2（http://project.carrot2.org/）这样的东西可能更合适。