我的问题类似于这里提到的问题:[链接] Performing many small matrix operations in parallel in OpenCL,除了我想要进行Cholesky分解。另外,我的矩阵将从15 X 15到100 X 100,我将拥有多达100,000个。所有矩阵都具有相同的尺寸。分解的矩阵将在GPU内进一步使用。
本文[链接] http://icl.cs.utk.edu/news_pub/submissions/haidar_iccp.pdf讨论了高级别的算法。他们使用术语批处理Cholesky来解决这个问题(大量的小矩阵)。他们这样做的方法是实现Cholesky分解中涉及的所有步骤的批量版本。
所以我想从批处理矩阵乘法开始(因为它是cholesky分解中的一个步骤)。对于大型矩阵,矩阵乘法在GPU上以阻塞方式完成。我的问题:它适合我遇到的那种问题吗?任何其他建议都会有所帮助。我不太确定如何处理这个问题。