对于基于文本分类相似性(余弦距离)的算法或常规分类方法(如SVM或决策树),在准确性和性能方面,哪种方法效果更好? 在训练大量文本数据的同时,SVM是否可以在4GB-8GB RAM系统中在有限的时间内解析?
答案 0 :(得分:0)
要回答此问题,您可以考虑“不免费午餐”理论,[1]。如果您没有关于数据的假设,那么您将无法偏爱另一种方法。因此,您可以尝试不同的方法,并使用K折估计每种方法的误差度量。然后,执行适当的统计测试以查看结果是否在统计上不同。
我希望这会有所帮助。
参考文献:
[1] D. H. Wolpert和W. G. Macready,“没有免费的午餐定理 优化”,IEEE Trans。进化计算卷1,第67-82页,1997年4月