scikit-learn在多处理器环境中搜索网格

时间:2013-09-24 15:06:07

标签: python parallel-processing mpi scikit-learn

我可以在我的四核处理器上本地并行运行scikit-learn函数GridSearchCV。我想知道使用MPI的某些模块(例如mpi4py)将其扩展到多处理器环境是否直接。

我对此非常陌生,所以我也非常感谢任何额外的相关信息。我现在正在浏览mpi4py的文档。

谢谢!

2 个答案:

答案 0 :(得分:2)

您可以查看GridSearchCV implementation作为在MPI之上实现您自己的变体的灵感。但是,MPI可能无法提供一种自然的方法来避免一遍又一遍地通过网络传输输入训练集数据。

另一种方法是使用IPython.parallel中解释的tutorial。本教程中使用的pyrallel helper lib的代码也是available on github

答案 1 :(得分:2)

我将GridSearchCV扩展为使用MPI,请查看http://k-d-w.org/node/95

目前,它仅适用于有监督的学习算法,但对无监督的修改应该很容易。希望这会有所帮助。