如何搜索列表中是否有项目集合?

时间:2018-11-01 12:39:34

标签: python python-3.x bioinformatics

我正在遍历一个文件,并试图确定在我创建的一个空列表中是否同时找到了特定的3个项目集(来自该文件);如果没有,我想附上它们。如果它们已经出现,我想跳过它们。

但是,当我运行以下代码时:

from pprint import pprint as pp

targets = open(file)

longest_UTR = []

counter = 0

for line in targets:

    (chromosome, locus, mir, gene, transcript, UTR_length) = line.strip("\n").split("\t")

    if [locus, mir, gene] not in longest_UTR:

        longest_UTR.append([locus, mir, gene, transcript, UTR_length])

    counter += 1

    if counter == 100:

        break

pp (longest_UTR)

我发现输出包含重复项,即即使它们出现在空白列表中,也没有跳过项目组(如下面的箭头所示)。

['CFI', 'hsa-miR-576-5p', 'DIS3', 'ENST00000490646', '2934'],
['APOE', 'hsa-miR-642a-5p', 'WDR64', 'ENST00000425826', '2122'],
>['C2/CFB/SKIV2L', 'hsa-miR-219a-1-3p', 'GLG1', 'ENST00000422840', '4748'],
['C2/CFB/SKIV2L', 'hsa-miR-219a-1-3p', 'GLG1', 'ENST00000422840', '4748']<,
['APOE', 'hsa-miR-330-3p', 'DCAF4L1', 'ENST00000333141', '4764'],
['TMEM97/VTN', 'hsa-miR-144-3p', 'DCAF4L1', 'ENST00000333141', '4764']]

对于为什么会这样,我需要一些指导。谢谢。

2 个答案:

答案 0 :(得分:1)

列表不可散列,因此无法按照您的想法比较两者之间的相等性。可以使用sets来进行列表比较。

从pprint导入pprint为pp

targets = open(file)

longest_UTR = []

for line in targets:
    chromosome, locus, mir, gene, transcript, UTR_length = line.strip("\n").split("\t")

    if not [set([locus, mir, gene]) < set(utr) for utr in longest_UTR]:
        longest_UTR.append([locus, mir, gene, transcript, UTR_length)])
pp (longest_UTR)

答案 1 :(得分:0)

longest_UTR似乎是列表列表。 if语句if [locus, mir, gene] not in longest_UTR会搜索[locus, mir, gene]中的列表longest_UTR,却永远找不到,因为longest_UTR中的子列表的长度都是5。

相反,您只需搜索每个子列表的前3个元素:

if not any(x[:3] == [locus, mir, gene] for x in longest_UTR):

您应该知道元素的顺序在这里很重要。例如,如果longest_UTR的某个列表的前三个元素为[mir, locus, gene],则此if语句将返回False