在文本分类中,基于相似度的算法是否优于SVM / Tree算法?

时间:2018-07-31 14:27:32

标签: machine-learning nlp svm text-classification cosine-similarity

对于基于文本分类相似性(余弦距离)的算法或常规分类方法(如SVM或决策树),在准确性和性能方面,哪种方法效果更好? 在训练大量文本数据的同时,SVM是否可以在4GB-8GB RAM系统中在有限的时间内解析?

1 个答案:

答案 0 :(得分:0)

要回答此问题,您可以考虑“不免费午餐”理论,[1]。如果您没有关于数据的假设,那么您将无法偏爱另一种方法。因此,您可以尝试不同的方法,并使用K折估计每种方法的误差度量。然后,执行适当的统计测试以查看结果是否在统计上不同。

我希望这会有所帮助。

参考文献:

[1] D. H. Wolpert和W. G. Macready,“没有免费的午餐定理 优化”,IEEE Trans。进化计算卷1,第67-82页,1997年4月