我有一个简单的分析要做。我只需要计算列(或行,如果转置)的相关性。够简单吗?我无法获得整周的结果,我已经查看了大部分解决方案。
我的笔记本电脑有4GB内存。我有权访问具有32个节点的服务器。我的数据无法加载,因为它很大(411k列和100行)。如果您需要任何其他信息或部分数据,我可以尝试将其放在这里,但问题可以很容易地解释而无需查看数据。我只需要得到一个大小为411k X 411k的相关矩阵,这意味着我需要计算数据行之间的相关性。
我试图编写的概念:(所有这些都以某种方式给我内存问题或永远运行)
我不是R专业人士,所以我只能尝试这么多。要么我的代码永远运行,要么我没有足够的内存来存储结果。有没有更有效的方法来解决这个问题?
感谢您的所有意见和帮助。
答案 0 :(得分:1)
我在遗传研究的背景下熟悉这个问题。
如果您只对重要的相关性感兴趣,您可能会发现我的包MatrixEQTL很有用(可在CRAN上找到,更多信息请参见http://www.bios.unc.edu/research/genomic_software/Matrix_eQTL/)。
如果你想保留所有相关性,我首先要警告你,以二进制格式(与文本比较经济),需要411,000 x 411,000 x 8字节= 1.3 TB。如果这是您想要的,并且您可以使用所需的存储空间,我可以提供我的代码进行此类计算和存储。