Weka可能是最受欢迎的通用机器学习库。但是根据我的经验,它可能会很慢。
我一直在关注Shark,Waffles,dlib,Plearn和MLC++作为替代方案。其中,Shark和dlib看起来最有希望。
对于这些库的性能测试,有没有人有经验?
答案 0 :(得分:45)
对我来说,最重要的是“这个工具包是否具有我想要尝试的算法或功能?”由于这些工具包提供了相当多样化的功能集,因此您应该首先尝试缩小您想要做的事情。
因此,举例来说,如果你渴望尝试不同的进化优化算法,那么我会选择类似Shark的东西。
另一方面,在我的大部分工作中,我更喜欢dlib,但这并不一定意味着很多,因为我写了:)但是,如果你对二进制分类感兴趣那么让我建议我目前最喜欢的方法是svm_c_ekm_trainer。我经常使用它来训练数十万个数据集上的非线性SVM。它通常在几分钟(有时甚至是几秒)内运行,而经典的SMO算法需要数小时或数天才能完成。
对于不久前提出的类似问题,也有一些很好的答案:Which machine learning library to use。