基于Incremental PCA on big data和增量PCA文档,建议使用memmap数组但是可以使用dask完成同样的事情吗?
更新扩展了包含其他部分拟合算法的问题,因为dask的git repo提到了一种使用任何支持部分拟合的scikit-learn的方法,但我似乎无法在其上找到文档在API中。当我尝试为6000x250000 float64
dask数据帧增量pca时,花了8小时在16核心104GB vm上取得9%的进度而没有调整dask调度程序但是我不确定它是否归结为我的糟糕代码或者如果那样对这个大小的数据集有什么期望。我欢迎任何关于SGD批量调整的建议,即使是作为concepthttps的证据://github.com/dask/dask/blob/master/dask/array/learn.pyhttp://matthewrocklin.com/blog/work/ 2016/07/12 / DASK学习部分-1
答案 0 :(得分:3)
dask.array.linalg.svd函数在小空间中并行运行。
dask.array中的fit and predict函数支持使用sklearn.Estimator
方法的任何partial_fit
。
dask-learn项目处理partial_fit
,网格搜索,管道等。请参阅Jim Crist关于该项目的三部分博客系列: