在数据框中查找与一列最相似的列

时间:2019-04-10 01:18:43

标签: r

我有一个来自VCF文件的数据,该数据显示了一组个体中基因组中可变位点的基因型。行是每个个体,列是基因组中的位点(bp)。基因型由0、1或2(纯合子,杂合子,纯合子)编码:

individual 80738047 81161037 81161055 81285600 81354721 81355142
indiv_1       0       1         1        2        0      0
indiv_2       1       1         2        0        0      1
indiv_3       2       2         1        2        2      0
etc

每个人都有特定的染色体单倍型,也由0、1或2编码,我在另一个文件中具有这样的特征:

individual Haplotype
indiv_1       0 
indiv_2       0 
indiv_3       2
etc

我正在寻找的区域中大约有5500个具有核苷酸变异的位点,我需要找到与个体单倍型高度相关的位点。理想情况下,我希望有一个输出,其中与单个单元型最相关的列是在有序对象中给出的。

虽然我可以分别left_join()进行数据帧处理然后执行lm []并为单个列对输出R ^ 2值,但我不知道如何在基因型列之间进行R ^ 2和一个命令中矩阵中的所有其他列。

此外,我不确定如何将结果值输出到可排序的对象中。有任何想法吗?

重要说明:整个数据框中缺少一些数据。

0 个答案:

没有答案