如何将过滤后的多态站点(以fasta格式)转换为R中的二进制矩阵?

时间:2017-04-19 05:29:43

标签: r fasta binary-matrix

提前感谢您的帮助......

我想从过滤后的多态网站创建二进制矩阵。我有快速格式的WGS程序集,每个分离序列的一个文件(总共131个fasta文件)。

例如,fasta文件包含 x 个元素,每个元素的长度不同。使用seqinr软件包读入文件,如下所示,节点数对应于每个文件中元素的数量;
fasta1 $ Node_1_length_179262_cov_53.4208_ID_3720:Class'SeqFastadna'a a t c ... fasta1 $ Node_2_length_151612_cov_41.7317_ID_3726:Class'SeqFastadna't t t t ...

我还有一个excel文档,其中包含filtered_polymorphic_sites(在wgMLST分析中找到的多态基因座,其中所有基因座都经过重组过滤)(由Gubbins执行)。 例如分离1:CGTGAGCCGCGG-AGCCAATAGGGTCAGTGCGGTCGCTGCGGGGTGAACGGCGCAAGCTTTGTCACGCCGGATGGAAGTATGGCCCAGAATTGTTTTTTTATGCGGGGGGGGCTGGCACGAGAAACGATGC

分离2:CGTGAGCCGCGG-AGCCAATAGGGTCAGTGCGGTCGCTGCGGGGTGAACGGCGCAAGCTTTGTCACACCGGATGGAAGTATGGCCCAGAATTGTTTTTTTATTCGGGCGGGGCTGGCACAAGAAGCGATGC

我更愿意在R中这样做,所以如果你可以建议一个R-package,那将是惊人的,但欢迎所有的建议。

非常感谢!!

0 个答案:

没有答案