我让Dask处理大量不适合记忆的向量,并使用scikit-learn cosine_similarity来计算这些向量之间的余弦相似度,即:
import dask.array as da
from sklearn.metrics.pairwise import cosine_similarity
vectors = da.from_array(vectors, 10000)
sims_mat = cosine_similarity(vectors)
工作正常,但我不确定这样我是否有使用Dask的任何好处,或者我应该为dask数组寻找余弦相似函数
答案 0 :(得分:1)
在我看来,这应该没问题,因为如果您查看 dask 和 sklearn 的文档,您会发现两者都建在顶部 numpy ,它使用并行处理。
如果你真的只想使用dask,你可以查看这个回购: https://pypi.python.org/pypi/dask-distance
它包含余弦相似函数。