注意:我选择在此处而不是在stats.stackexchange.com上询问,因为它是关于软件工作流工具而不是任何特定方法。我觉得那些对实际软件包更加熟悉的人能够提供更多帮助,因为我特别试图避免从学术界得到的常见答案,即只使用R或Matlab然后让研究生形象如何使东西适用于大数据。
我即将开始一个涉及大量数据挖掘的大型项目(主要通过SQL),大量快速而肮脏的基本统计(一般线性模型,协方差估计等),还有很多更多高级方法(贝叶斯材料,高级采样器,非参数),强烈需要扩展多处理,以及生成好图的需要。
目前,我对Python和相关的科学工具(NumPy,scikits,matplotlib,甚至用于多处理的PyCUDA / MPI ......)都很不错......我以前从未处理过SQL。但是,我发现通常情况是我需要的方法在Python中相对较慢,并且在数据集变大时不能很好地扩展。我只知道一点C / C ++,对Boost.Python或Cython一点都不了。
我知道很多统计学家都使用R,但是我也听说过R只是Matlab的一小部分,这种方法可以减慢并加入奇怪的内置函数。
我的问题是:什么是用于执行此类统计工作的良好工作流程/工具套件。当我想要编写一些我编写的Python代码并通过将其移植到另一种语言或将Python库打包成C ++时,我应该考虑哪些工具更快/更好。 Boost.Python是否能让我在C ++中支持高级数学算法,然后在Python中使用它们?在进行统计工作时,这是一件好事吗,或者Boost.Python在统计函数中是否过于微不足道?
我也看过PyR2,它允许你在Python中访问几乎所有的R。这是否足以快速用于大数据?
关于统计工作流程的任何其他建议都会很棒!