我正在比较R和Spark ML之间的朴素贝叶斯分类器的准确性,并获得连续和分类数据集的以下结果
精度 R - 95% Spark ML - 89%
分类数据集
https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data
精度 R - 84% Spark ML - 75%
我想在生产中使用Spark Naive Bayes算法,请指导我最小化R和Spark ML的准确度之间的差异(我使用OnehotEncoder将分类转换为double)。
请帮助我理解为什么两个输出都有差异