python - 在python中进行并行编程，卸载到GPU

在我看来，我正在编写包含许多非常可并行化的for循环的科学python代码。在这些循环中，我从openource python2.7库中调用了很多属于类的函数，因此转移到另一种语言是不可行的。除非它可以与python接口。我有两个不同的代码 - ＆gt;

是否有可能将这些中的for-loop卸载到gpu中？（nVidia GTX gpu）例如。使用OpenACC（Anaconda）/ PGI，PyCUDA或PyOpenCL甚至是OpenCV？

（*依赖于存储临时数据GB的路径，例如$ HOME / tmp /）（**较少可并行化，因为它们依赖于先前的迭代..）

输入是CT图像 - ＆gt; 3d np.arrays签名的int16值

我有八个CPU线程，我可以完全使用多处理。然而我的GPU什么都不做。假设8 GB RAM，使用＆lt; 2 GB。使用Arch-Linux。

PS。我打开硬件升级的建议 - ＆gt;我从事癌症研究，这使得资金成为可能。