我真的需要一些关于用什么数据结构和函数来解决我试图执行的任务的建议。我不确定这里的最佳方法。
问题/任务:我有染色体开始和结束位置列表。我试图找出将这些数据推入元组列表(?)或类似内容的最佳方法,然后在给定start_end范围值的情况下将这些坐标平分。我之前使用过bisect,但仅用于包含单个的列表值条目因此不确定进行多值比较的最佳方法是什么。
例如,如果我有以下基因,
gene_name start_pos end_pos
gene_A 100 200
gene_B 300 400
gene_C 500 600
gene_D 700 800
gene_E 900 1000
我希望查询此列表的开头和结尾位置不匹配正常的开始和结束以返回匹配的基因;
query_start = 550 query_end = 580 > should return gene_C
query_start = 110 query end = 180 > should return gene_A
我试图通过我的方式,并制作了一些可笑的丑陋复杂的代码,但我知道必须有一个简单/逻辑的方法来做到这一点,我努力提出正确的问题文档/论坛搜索明智的。
非常感谢任何有用的建议。
由于
答案 0 :(得分:1)
将这些值放入字典中是很自然的事情。在这里,我使用基因名称作为字典键,并将它们的相应范围用作值。
genes={'gene_A': [100,200],
'gene_B': [300, 400],
'gene_C': [500, 600],
'gene_D': [700, 800],
'gene_E': [900, 1000]}
#Takes as argument a dictionary of genes to check and a range in the form of a tuple
def gene_query(gene_data,gene_range):
for gene in gene_data:
if gene_range[0]>=gene_data[gene][0]:
if gene_range[1]<=gene_data[gene][1]:
return gene
else:
return "No genes match your query range"
print gene_query(genes, (550, 580))
print gene_query(genes, (110, 180))
这里我创建了一个python函数来返回第一个基因的名称以匹配查询范围,但您可以通过将匹配结果附加到列表而不是立即修改它来收集匹配查询的所有结果归还他们。
答案 1 :(得分:1)
首先,这里是元组列表中的所有数据:
>>> txt='''\
... gene_name start_pos end_pos
... gene_A 100 200
... gene_B 300 400
... gene_C 500 600
... gene_D 700 800
... gene_E 900 1000'''
>>>
>>> genes=[(name, int(d1), int(d2)) for name, d1, d2 in [line.split() for line in txt.splitlines()[1:]]]
>>> genes
[('gene_A', 100, 200), ('gene_B', 300, 400), ('gene_C', 500, 600), ('gene_D', 700, 800), ('gene_E', 900, 1000)]
完成后,您可以使用过滤器:
def query(genes, start, finish):
return list(filter(lambda t: t[1]<start<t[2] and t[1]<finish<t[2], genes))
>>> query(genes, 550, 580)
[('gene_C', 500, 600)]
>>> query(genes, 110, 180)
[('gene_A', 100, 200)]
或列表理解:
def query(genes, start, finish):
return [t[0] for t in genes if t[1]<start<t[2] and t[1]<finish<t[2]]
>>> query(genes, 550, 580)
['gene_C']
>>> query(genes, 110, 180)
['gene_A']
或者您可以使用bisect module(如果基因是排序列表)。
首先对列表进行排序:
>>> genes.sort(key=lambda t: (t[1], t[2]))
>>> genes
[('gene_A', 100, 200), ('gene_B', 300, 400), ('gene_C', 500, 600), ('gene_D', 700, 800), ('gene_E', 900, 1000)]
生成可用作索引的关键元组列表:
>>> keys=[(t[1], t[2]) for t in genes]
>>> keys
[(100, 200), (300, 400), (500, 600), (700, 800), (900, 1000)]
现在您可以使用关键索引和二等分来查询基因:
>>> import bisect
>>> genes[bisect.bisect_left(keys, (550, 580))-1]
('gene_C', 500, 600)
>>> genes[bisect.bisect_left(keys, (110, 180))-1]
('gene_A', 100, 200)
对于更复杂的示例,您可以考虑SortedCollection配方。