我想将文本文档分为四类。此外,我有很多已经分类的样本可以用于培训。我希望算法能够在飞行中学习..请建议一个适合此要求的最佳算法。
答案 0 :(得分:4)
如果“在飞行中”你的意思是在线学习(训练和分类可以交错),我建议使用k-nearest neighbor算法。它可以在Weka和包TiMBL中找到。
感知器也可以做到这一点。
“最佳”在这种情况下不是明确定义的术语。
答案 1 :(得分:3)
有几种算法可以在飞行中学习。例子:k-最近邻,朴素贝叶斯,神经网络。您可以尝试这些方法在样本语料库中的适用程度。
答案 2 :(得分:1)
由于您有未标记的数据,因此您可能希望使用有帮助的模型。我想到的第一件事是非线性NCA:Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)。
答案 3 :(得分:0)
嗯......我不得不说文档分类与你们的想法不同。
通常,在文档分类中,在预处理之后,测试数据总是非常巨大,例如,O(N ^ 2)......因此,它的计算成本太高。
我想到的另一个典型的分类器是判别分类器......它不需要数据集的生成模型。在训练之后,您必须做的是将您的单个条目放入算法,并将其归类。
祝你好运。例如,您可以查看E. Alpadin的书“机器学习简介”。