应用错误收集

什么机器学习算法可能更适合这种情况

时间：2018-04-12 17:57:36

标签： machine-learning classification

我有一个由大约15M观测值组成的数据集，其中约3％来自兴趣类。我可以在电脑中训练模型，但我需要在树莓派pi3中实现分类器。由于覆盆子具有如此有限的内存，哪些算法代表它的负载最小？

其他信息：数据集难以区分。例如，无论架构或激活功能如何，人工神经网络都无法超过兴趣类别的80％检测率。随机森林已经证明了很好的性能，但是在微控制器上实现所需的树木和节点的数量是不可行的。

提前谢谢你。

1 个答案:

答案 0 :(得分：0)

您可以在随机森林方法中修剪树木，以便平衡分类器性能与内存/处理能力要求。

另外，我怀疑你有一个强烈不平衡的火车/测试装置，所以我想知道你是否使用了这种情况下建议的任何方法（例如SMOTE，ADASYN等）。在python的情况下，我强烈建议您查看imbalanced-learn库。使用这种方法可以减小分类器的大小，并且具有可接受的良好性能，使您能够适合在目标设备上运行。

最后但同样重要的是，此问题可以轻松转到Cross Validated或Data Science个网站。