应用错误收集

我的问题类似于这里提到的问题：[链接] Performing many small matrix operations in parallel in OpenCL，除了我想要进行Cholesky分解。另外，我的矩阵将从15 X 15到100 X 100，我将拥有多达100,000个。所有矩阵都具有相同的尺寸。分解的矩阵将在GPU内进一步使用。

本文[链接] http://icl.cs.utk.edu/news_pub/submissions/haidar_iccp.pdf讨论了高级别的算法。他们使用术语批处理Cholesky来解决这个问题（大量的小矩阵）。他们这样做的方法是实现Cholesky分解中涉及的所有步骤的批量版本。

所以我想从批处理矩阵乘法开始（因为它是cholesky分解中的一个步骤）。对于大型矩阵，矩阵乘法在GPU上以阻塞方式完成。我的问题：它适合我遇到的那种问题吗？任何其他建议都会有所帮助。我不太确定如何处理这个问题。

Cholesky使用OpenCL对大量小矩阵进行分解

0 个答案: