应用错误收集

时间：2011-02-14 14:26:23

标签： machine-learning data-mining classification

我想将文本文档分为四类。此外，我有很多已经分类的样本可以用于培训。我希望算法能够在飞行中学习..请建议一个适合此要求的最佳算法。

答案 0 :(得分：4)

如果“在飞行中”你的意思是在线学习（训练和分类可以交错），我建议使用k-nearest neighbor算法。它可以在Weka和包TiMBL中找到。

感知器也可以做到这一点。

“最佳”在这种情况下不是明确定义的术语。

答案 1 :(得分：3)

有几种算法可以在飞行中学习。例子：k-最近邻，朴素贝叶斯，神经网络。您可以尝试这些方法在样本语料库中的适用程度。

答案 2 :(得分：1)

由于您有未标记的数据，因此您可能希望使用有帮助的模型。我想到的第一件事是非线性NCA：Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)。

答案 3 :(得分：0)

嗯......我不得不说文档分类与你们的想法不同。

通常，在文档分类中，在预处理之后，测试数据总是非常巨大，例如，O（N ^ 2）......因此，它的计算成本太高。

我想到的另一个典型的分类器是判别分类器......它不需要数据集的生成模型。在训练之后，您必须做的是将您的单个条目放入算法，并将其归类。

祝你好运。例如，您可以查看E. Alpadin的书“机器学习简介”。