LDA与朴素贝叶斯的优势和劣势有哪些? 机器学习分类的条款?
我知道Naive Bayes之类的一些差异假定变量是独立的,而LDA假定高斯类条件密度模型,但我不知道何时使用LDA以及何时根据情况使用NB?
答案 0 :(得分:3)
这两种方法都非常简单,因此很难说哪种方法会更好。通常尝试两者并计算测试精度通常会更快。但是这里的特征列表通常表明某种方法是否不太可能产生良好的结果。这一切都归结为数据。
朴素贝叶斯分类器的第一个缺点是特征独立性假设。在实践中,数据是多维的,并且不同的特征确实相关。因此,结果可能非常糟糕,但并不总是显着。如果你肯定知道这些功能是相关的(例如图像的像素),不要指望朴素贝叶斯炫耀。
另一个问题是数据稀缺。对于特征的任何可能值,通过频率论方法估计可能性。这可能导致概率接近0或1,这反过来导致数值不稳定和更差的结果。
连续功能出现第三个问题。朴素贝叶斯分类器仅适用于分类变量,因此必须将连续特征转换为离散特征,从而丢弃大量信息。如果数据中存在连续变量,则这是对Naive Bayes的强烈信号。
如果类不平衡,则LDA不能正常工作,即各种类中的对象数量差别很大。解决方案是获取更多数据,这可能非常简单或几乎不可能,具体取决于任务。
LDA的另一个缺点是它不适用于非线性问题,例如分离圆环形点云,但在高维空间中,很难立即发现它。通常你会在看到LDA无法正常工作后理解这一点,但如果已知数据非常非线性,则这是对抗LDA的强烈信号。
此外,LDA可能对过度拟合敏感,需要仔细验证/测试。