Entrez电子搜索结果与在线结果不符

时间:2018-06-03 23:26:52

标签: bioinformatics biopython

我使用以下代码执行 esearch ,但我从 IdList 获取的ID与在线搜索中的ID不匹配。

from Bio import Entrez
Entrez.email = "myEmail@gmail.com"
handle = Entrez.esearch(db = "nucleotide", term = "chordata[orgn] AND 
chromosome", retmax = 10, idtype = "acc")
genome_ids = Entrez.read(handle)['IdList']
print(genome_ids)

当我打印出身份证时,他们不会在网上与那些人匹配。有人知道为什么吗?这些是我打印出gene_ids时得到的id:

['NG_017163.2', 'NM_017553.3', 'NG_059281.1', 'NM_005101.4', 
'MH423692.1', 'MH423691.1', 'MH423690.1', 'MH423689.1', 'MH423688.1', 
'MH423687.1']

以下是在线搜索的链接: https://www.ncbi.nlm.nih.gov/nuccore/?term=chordata%5Borgn%5D+AND+chromosome

也有人知道如何从chordata门下载所有生物的染色体和线粒体基因组。我想通过E-utilities使用BioPython来实现。

1 个答案:

答案 0 :(得分:0)

  

如何从脊索动物门下载所有生物的染色体和线粒体基因组

  1. 转到https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi
  2. 在'搜索'中输入chordata框,在下拉列表中选择complete name
  3. 为级别输入一个较高的数字(例如30),然后在下拉列表中选择过滤器has genome sequence
  4. 选中nucleotide复选框
  5. 现在,您将使用其subtaxa查看chordata的完整分类树。每个出租车后面的数字是该出租车的序列数。因此,NCBI包含84,366,537种不同的脊索动物序列。

    您可能没有足够的空间下载所有内容,因此请进行选择,点击出租车后面的数字,然后选择Send to> File> FASTA