python - 统计计算工作流程的建议

注意：我选择在此处而不是在stats.stackexchange.com上询问，因为它是关于软件工作流工具而不是任何特定方法。我觉得那些对实际软件包更加熟悉的人能够提供更多帮助，因为我特别试图避免从学术界得到的常见答案，即只使用R或Matlab然后让研究生形象如何使东西适用于大数据。

我即将开始一个涉及大量数据挖掘的大型项目（主要通过SQL），大量快速而肮脏的基本统计（一般线性模型，协方差估计等），还有很多更多高级方法（贝叶斯材料，高级采样器，非参数），强烈需要扩展多处理，以及生成好图的需要。

目前，我对Python和相关的科学工具（NumPy，scikits，matplotlib，甚至用于多处理的PyCUDA / MPI ......）都很不错......我以前从未处理过SQL。但是，我发现通常情况是我需要的方法在Python中相对较慢，并且在数据集变大时不能很好地扩展。我只知道一点C / C ++，对Boost.Python或Cython一点都不了。

我知道很多统计学家都使用R，但是我也听说过R只是Matlab的一小部分，这种方法可以减慢并加入奇怪的内置函数。

我的问题是：什么是用于执行此类统计工作的良好工作流程/工具套件。当我想要编写一些我编写的Python代码并通过将其移植到另一种语言或将Python库打包成C ++时，我应该考虑哪些工具更快/更好。 Boost.Python是否能让我在C ++中支持高级数学算法，然后在Python中使用它们？在进行统计工作时，这是一件好事吗，或者Boost.Python在统计函数中是否过于微不足道？

我也看过PyR2，它允许你在Python中访问几乎所有的R。这是否足以快速用于大数据？

关于统计工作流程的任何其他建议都会很棒！

统计计算工作流程的建议

0 个答案: