Ipython Notebook上的多核和多线程

时间:2016-05-07 00:12:43

标签: python multithreading unix python-multithreading

我目前正在使用python中的线程函数并获得以下内容:

In [1]:
import threading
threading.activeCount()

Out[1]:
4

现在在我的终端上,我使用 lscpu 并了解到每个核心有2个线程,我可以访问4个核心:

kitty@FelineFortress:~$ lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                8
On-line CPU(s) list:   0-7
Thread(s) per core:    2
Core(s) per socket:    4
Socket(s):             1
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 60
Stepping:              3
CPU MHz:               800.000
BogoMIPS:              5786.45
Virtualization:        VT-x
L1d cache:             32K
L1i cache:             32K
L2 cache:              256K
L3 cache:              8192K
NUMA node0 CPU(s):     0-7

因此,我应该有超过4个线程可供访问。是否有一个python函数我可以用来增加我使用的核心数量(例如)以获得超过4个线程?或者甚至可以在启动ipython笔记本时在终端上键入内容,如下所示:

ipython notebook n_cores=3

1 个答案:

答案 0 :(得分:5)

您可以使用multiprocessing来允许Python使用多个核心。只有一点,一个重要的警告:你在Python会话之间传递的所有数据必须是可选择的或通过继承传递,并且在Windows上产生一个新的Python实例,而在Unix系统上它可以分叉。这对Windows系统具有显着的性能影响。

使用多处理的基本example如下所示"本周的Python模块":

import multiprocessing

def worker():
    """worker function"""
    print 'Worker'
    return

if __name__ == '__main__':
    jobs = []
    for i in range(5):
        p = multiprocessing.Process(target=worker)
        jobs.append(p)
        p.start()

执行时,输出:

Worker
Worker
Worker
Worker
Worker

多处理允许您在不同的核心上进行独立计算,允许CPU限制的任务以较少的开销执行,比传统的流程​​快得多。

您还应该意识到Python中的线程不会提高性能。它是为了方便而存在(例如在长时间计算期间保持GUI的响应性)。原因是由于Python的全局解释器锁定或GIL,这些不是本机线程。

2018年2月更新

这仍然非常适用,并且在可预见的未来。 Cpython实现使用以下definition进行引用计数:

typedef struct _object {
    _PyObject_HEAD_EXTRA
    Py_ssize_t ob_refcnt;
    struct _typeobject *ob_type;
} PyObject;

值得注意的是,这是线程安全,因此必须实现全局解释器锁,以允许只有一个执行线程与Python对象一起避免数据争用导致内存问题。

除了多处理之外,还有许多工具可以试图支持全局解释器锁定(它需要在Windows上完全复制解释器,而不是使用fork,这使得它非常慢并且无法提高性能)。

用Cython

您最简单的解决方案是Cython。只需输入一个没有任何内部对象的函数,然后使用with nogil关键字释放GIL。

documentation中获取的一个简单示例,其中显示了如何释放和暂时重新启用GIL:

from cython.parallel import prange

cdef int func(Py_ssize_t n):
    cdef Py_ssize_t i

    for i in prange(n, nogil=True):
        if i == 8:
            with gil:
                raise Exception()
        elif i == 4:
            break
        elif i == 2:
            return i

使用不同的解释器

CPYthon有一个GI,而Jython和IronPython没有。要小心,因为许多用于高性能计算的C库可能无法与IronPython或Jython一起使用(SciPy与IronPython支持一起使用,但很久以前就放弃了它,并且它不适用于现代Python版本。)

使用MPI4Py

MPI或消息传递接口是C和C ++等语言的高性能接口。它允许高效的并行计算,MPI4Py为Python的MPI创建绑定。为了提高效率,您应该只将MPI4Py与NumPy阵列一起使用。

他们documentation的一个例子是:

from mpi4py import MPI
import numpy

def matvec(comm, A, x):
    m = A.shape[0] # local rows
    p = comm.Get_size()
    xg = numpy.zeros(m*p, dtype='d')
    comm.Allgather([x,  MPI.DOUBLE],
                   [xg, MPI.DOUBLE])
    y = numpy.dot(A, xg)
    return y