我试图解决A * x = b,其中A具有复杂的值且密集。
我使用cuSolverDN库中的cusolverDnCgeqrf()方法对一组线性方程进行QR分解。但是,我想多次这样做以加快处理速度。
是否有#34;批次"这种方法的版本?或者我可以使用另一个CUDA库吗?
答案 0 :(得分:1)
你可以使用Magma批量QR: http://icl.cs.utk.edu/projectsfiles/magma/doxygen/group__group__qr__batched.html#details
或者Nvidia批量库: https://devblogs.nvidia.com/parallelforall/parallel-direct-solvers-with-cusolver-batched-qr/
我不确定他们是否还有python包装器。 我想补充说,目前可以通过Magma或Nvidia获得许多解算器的批量版本。
目前还没有一个标准,但它正在进行中,在批量生产研讨会中进行了讨论: 这里
http://www.netlib.org/utk/people/JackDongarra/WEB-PAGES/Batched-BLAS-2017/ 在这里:
http://www.netlib.org/utk/people/JackDongarra/WEB-PAGES/Batched-BLAS-2016/
草案准备就绪,我希望很快会有标准的批量BLAS。