我有一些大的基因组数据文件要分析,它有两种形式,一个单独的剂量文件,如下:
id snp1 snp2 snp3 snp4 snp5 snp6
RS1->1000001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335
RS1->1000002 DOSE 1.291 1.998 1.998 1.998 1.830 1.335
RS1->100001 DOSE 1.992 1.998 1.998 1.998 1.830 1.335
RS1->100002 DOSE 1.394 1.998 1.998 1.998 1.830 1.335
RS1->10001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335
RS1->1001001 DOSE 1.904 1.998 1.998 1.998 1.830 1.335
RS1->1002001 DOSE 1.094 1.998 1.998 1.998 1.830 1.335
RS1->1003001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335
RS1->1004001 DOSE 1.994 1.998 1.998 1.998 1.830 1.335
RS1->1005002 DOSE 1.994 1.998 1.998 1.998 1.830 1.335
另一个包含一些摘要信息:
SNP Al1 Al2 Freq1 MAF Quality Rsq
22_16050607 G A 0.99699 0.00301 0.99699 0.00000
22_16050650 C T 0.99900 0.00100 0.99900 0.00000
22_16051065 G A 0.99900 0.00100 0.99900 0.00000
22_16051134 A G 0.99900 0.00100 0.99900 0.00000
rs62224609 T C 0.91483 0.08517 0.91483 -0.00000
rs62224610 G C 0.66733 0.33267 0.66733 0.00000
22_16051477 C A 0.99399 0.00601 0.99399 -0.00000
22_16051493 G A 0.99900 0.00100 0.99900 -0.00000
22_16051497 A G 0.64529 0.35471 0.64529 0.00000
第二个文件中的SNP列对应第一个文件中的snp1,snp2 ....我需要使用第二个文件中的摘要信息进行一些质量检查和选择,然后对第一个文件中的数据进行相应的统计分析。
问题是,是否有适合此任务的python库?性能在这里至关重要,因为这些文件非常庞大。谢谢!
答案 0 :(得分:2)
为了处理具有高性能和高效操作的大型文件和数据,实际上没有比pandas更好的模块
以下代码会将您的文件读入DataFrame
并允许轻松操作:
import pandas as pd
data = 'my_data.csv'
df = pd.read_csv(data)
现在df
是一个包含数据的高效数据框!此外,你甚至不需要说它的制表符分隔符,因为pandas“嗅探”分隔符
答案 1 :(得分:1)
有csv
个模块。它是用C
后端编写的,所以它应该表现得非常好。也就是说,如果格式足够简单,str.split
甚至可能更快。
在我看来,与使用CSV文件存储数据不同,某种数据库可能是更好的选择。