选择哪种分类算法?

时间:2011-02-14 14:26:23

标签: machine-learning data-mining classification

我想将文本文档分为四类。此外,我有很多已经分类的样本可以用于培训。我希望算法能够在飞行中学习..请建议一个适合此要求的最佳算法。

4 个答案:

答案 0 :(得分:4)

如果“在飞行中”你的意思是在线学习(训练和分类可以交错),我建议使用k-nearest neighbor算法。它可以在Weka和包TiMBL中找到。

感知器也可以做到这一点。

“最佳”在这种情况下不是明确定义的术语。

答案 1 :(得分:3)

有几种算法可以在飞行中学习。例子:k-最近邻,朴素贝叶斯,神经网络。您可以尝试这些方法在样本语料库中的适用程度。

答案 2 :(得分:1)

由于您有未标记的数据,因此您可能希望使用有帮助的模型。我想到的第一件事是非线性NCA:Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)

答案 3 :(得分:0)

嗯......我不得不说文档分类与你们的想法不同。

通常,在文档分类中,在预处理之后,测试数据总是非常巨大,例如,O(N ^ 2)......因此,它的计算成本太高。

我想到的另一个典型的分类器是判别分类器......它不需要数据集的生成模型。在训练之后,您必须做的是将您的单个条目放入算法,并将其归类。

祝你好运。例如,您可以查看E. Alpadin的书“机器学习简介”。