我有一个由大约15M观测值组成的数据集,其中约3%来自兴趣类。我可以在电脑中训练模型,但我需要在树莓派pi3中实现分类器。由于覆盆子具有如此有限的内存,哪些算法代表它的负载最小?
其他信息:数据集难以区分。例如,无论架构或激活功能如何,人工神经网络都无法超过兴趣类别的80%检测率。随机森林已经证明了很好的性能,但是在微控制器上实现所需的树木和节点的数量是不可行的。
提前谢谢你。
答案 0 :(得分:0)
您可以在随机森林方法中修剪树木,以便平衡分类器性能与内存/处理能力要求。
另外,我怀疑你有一个强烈不平衡的火车/测试装置,所以我想知道你是否使用了这种情况下建议的任何方法(例如SMOTE,ADASYN等)。在python的情况下,我强烈建议您查看imbalanced-learn
库。使用这种方法可以减小分类器的大小,并且具有可接受的良好性能,使您能够适合在目标设备上运行。
最后但同样重要的是,此问题可以轻松转到Cross Validated或Data Science个网站。