我想生成大尺寸密集矩阵(N> 10 ^ 7)的LU分解,我目前使用的LU分解基于Adaptive Cross Approximation,并且需要很长时间才能执行更大的N,任何人都可以提出很少的LU分解技术,可以很好地并行化(使用OpenMP)并缩短时间。
注意:
- 我用C ++编写代码并使用Xeon处理器(128个线程)
和特根图书馆。
- 矩阵中的条目通过内核函数填充
表格exp( - (x1-x2)^ 2)。
- 矩阵的存储不是问题,我正在使用Xeon处理器,并且有足够的内存,而且,我不存储完整的矩阵,每当我需要在矩阵中找到一个条目时,我使用内核函数和为该单元格生成类型 - 双精度数。
醇>