GaussianMixture没有n_jobs
参数。
同时,每当我适合模型
from sklearn.mixture import GaussianMixture as GMM
gmm = GMM(n_components=4,
init_params='random',
covariance_type='full',
tol=1e-2,
max_iter=100,
n_init=1)
gmm.fit(X, y)
它跨越16个进程并使用我的16个CPU机器的全部CPU能力。我不希望它这样做。
相比之下,Kmeans具有n_jobs
参数,可在多次初始化(n_init
> 1)时控制多重处理。多处理在这里出乎意料。
我的问题是它来自何处以及如何控制它?
答案 0 :(得分:3)
您正在观察基本代数运算的并行处理,加快BLAS / LAPACK。
修改它并不像设置n_jobs
参数那么简单,而是取决于您使用的实现!
常见的候选人是ATLAS,OpenBLAS和英特尔的MKL。
我建议先检查哪一个被使用,然后采取相应的行动:
import numpy as np
np.__config__.show()
可悲的是,这些事情可以得到tricky。例如,MKL的有效环境可能如下所示(source):
export MKL_NUM_THREADS="2"
export MKL_DOMAIN_NUM_THREADS="MKL_BLAS=2"
export OMP_NUM_THREADS="1"
export MKL_DYNAMIC="FALSE"
export OMP_DYNAMIC="FALSE"
对于ATLAS,似乎你在compile-time定义了这个。
根据this answer,同样适用于OpenBLAS。
在OP测试时,似乎你可以为OpenMP设置环境变量,即使对于开源候选人Atlas和OpenBLAS(其中编译时限制是另一种选择)也会影响行为的修改):
export OMP_NUM_THREADS="4";