我是通过Biopython和一些R套件(rentrez和reutil)访问Entrez的新手。使用esummary访问'nuccore'数据库时,Biopython返回的输出字段与R包返回的输出字段不同。
的Python:
handle = Entrez.esearch(db='nuccore', term='183844[GPRJ]', retmax=75000)
record = Entrez.read(handle)
id_list = record["IdList"]
search_results = Entrez.read(Entrez.epost("nuccore", id=",".join(id_list), restart=1, retmax=10000))
webenv = search_results["WebEnv"]
query_key = search_results["QueryKey"]
handle1 = Entrez.esummary(db="nuccore", query_key=query_key, WebEnv=webenv)
record1 = Entrez.read(handle1)
Biopython返回的字段是:
[ 'AccessionVersion', '字幕', '注释', 'CREATEDATE', '额外', '标志', 'GI', 'ID', '项', '长度', 'ReplacedBy', '状态', 'TaxId', '名称', 'UpdateDate']
R(重新包装):
trak <- esearch('183844[GPRJ]', "nuccore", usehistory=TRUE, retmax = 70000)
query_key <- 1
web_env <- "NCID_1_224566406_130.14.18.34_9001_1496371219_1582367639_0MetA0_S_MegaStore_F_1"
esum <- esummary(db="nuccore", querykey = query_key, webenv = web_env, retstart = 1, retmax = 10000)
gtrkr <- content(esum, "parsed")
虽然R包reutil和rentrez返回的字段是: 结果包含31个项目:
['uid','caption','title','extra','gi','createdate','updatedate','flags','taxid','slen','biomol','moltype ','拓扑','sourcedb','segsetsize','projectid','基因组','子类型','子名','assemblygi','assemblyacc','tech','完整性','遗传密码', 'strand','organism','strain','biosample','statistics','properties','oslt']
提前致谢。
答案 0 :(得分:2)
迟到了,但作为biopython
和rentrez
的维护者的过去贡献者,我觉得我需要解释这里发生了什么。
默认情况下,Biopython正在访问“版本1.0”的esummary记录,而R包正在获取“版本2.0”记录。在rentrez帮助页面中简要讨论了这些记录之间的差异:
NCBI为摘要文件提供两种不同的格式。版 1.0是基于的数据库记录的相对有限的摘要 共享文档类型定义。版本1.0摘要仅供参考 以XML格式提供,不适用于某些较新的数据库 2.0版摘要通常包含有关a的更多信息 给定记录,但每个数据库都有自己独特的格式。 2.0 摘要可用于所有数据库中的记录和JSON 和XML文件。从版本0.4开始,rentrez获取版本2.0 默认情况下摘要并使用JSON作为交换格式(作为JSON 对象可以更容易地转换为本机R类型)。现有 依赖于“版本”的结构和命名的脚本 通过设置新的“版本”可以更新1.0“摘要文件 参数为“1.0”。
只是为了证明改变这个论点再现了Biopython的结果。
> eg_gene <- entrez_search(db="nuccore", term='183844[GPRJ]', retmax=1)
> entrez_summary(db="nuccore", id=eg_gene$ids, version="1.0")
esummary result with 13 items:
[1] Caption Title Extra Gi
[5] CreateDate UpdateDate Flags TaxId
[9] Length Status ReplacedBy Comment
[13] AccessionVersion
> entrez_summary(db="nuccore", id=eg_gene$ids)
esummary result with 31 items:
[1] uid caption title extra gi
[6] createdate updatedate flags taxid slen
[11] biomol moltype topology sourcedb segsetsize
[16] projectid genome subtype subname assemblygi
[21] assemblyacc tech completeness geneticcode strand
[26] organism strain biosample statistics properties
[31] oslt
handle = Entrez.esearch(db="nuccore", term="183844[GPRJ]", retmax=1)
record = Entrez.read(handle)
handle_two = Entrez.esummary(db="nuccore", id=record["IdList"][0], version="2.0")
Entrez.read(handle_two, validate=False)
{'DocumentSummarySet': ListElement([ListElement(['NPMJ00000000', 'Salmonella enterica subsp. enterica serovar Johannesburg strain CFSAN059880, whole genome shotgun sequencing project', 'gi|1235597280|gb|NPMJ00000000.1|NPMJ01000000', '1235597280', '2017/08/22', '2017/08/22', '0', '913076', '48', 'genomic', 'dna', 'linear', 'insd', '0', '186035', '', 'strain|serovar|host|sub_species|country|isolation_source|collection_date|collected_by', 'CFSAN059880|Johannesburg|Bos taurus|enterica|Nigeria|cattle stool|2012|University of Ibadan', '0', '', 'wgs', '', '11', '', 'Salmonella enterica subsp. enterica serovar Johannesburg', 'CFSAN059880', [StringElement('', attributes={'count': '1', 'type': 'all'}), StringElement('', attributes={'count': '3500', 'type': 'blob_size'}), StringElement('', attributes={'count': '1', 'type': 'org'}), StringElement('', attributes={'count': '2', 'type': 'pub'}), StringElement('', attributes={'count': '1', 'subtype': 'unpublished', 'type': 'pub'}), StringElement('', attributes={'count': '1', 'source': 'all', 'type': 'all'}), StringElement('', attributes={'count': '3500', 'source': 'all', 'type': 'blob_size'}), StringElement('', attributes={'count': '1', 'source': 'all', 'type': 'org'}), StringElement('', attributes={'count': '2', 'source': 'all', 'type': 'pub'})], StringElement('1', attributes={'master': '1', 'na': '1'}), StringElement('NPMJ00000000.1', attributes={'indexed': 'yes'}), 'NPMJ00000000.1'], attributes={'uid': '1235597280'})], attributes={'status': 'OK'})}
答案 1 :(得分:1)
解释Biopython示例:
from Bio import Entrez
handle = Entrez.esearch(db='nuccore', term='183844[GPRJ]', retmax=75000)
record = Entrez.read(handle)
id_list = record["IdList"]
search_results = Entrez.read(Entrez.epost("nuccore", id=",".join(id_list), restart=1, retmax=10000))
webenv = search_results["WebEnv"]
query_key = search_results["QueryKey"]
handle1 = Entrez.esummary(db="nuccore", query_key=query_key, WebEnv=webenv)
record1 = Entrez.read(handle1)
现在这应该确认他们是1000个条目(匹配retmax
),每个条目有15个字段:
print(len(record1))
for entry in record1:
assert len(entry) == 15
print(record1[0])
那应该给:
1000
{'Item': [], 'Id': '1102582672', 'Caption': 'MEKF00000000', 'Title': 'Salmonella enterica subsp. enterica serovar Sandiego strain CFSAN039537, whole genome shotgun sequencing project', 'Extra': 'gi|1102582672|gb|MEKF00000000.1|MEKF01000000[1102582672]', 'Gi': 1102582672, 'CreateDate': '2016/11/14', 'UpdateDate': '2017/07/11', 'Flags': 0, 'TaxId': 0, 'Length': 93, 'Status': 'live', 'ReplacedBy': '', 'Comment': ' ', 'AccessionVersion': 'MEKF00000000.1'}
顺便说一句,我不确定'Item'
空列表的来源是什么。
让我们使用retmax = 1
检查第一条记录的实际原始XMLfrom Bio import Entrez
handle = Entrez.esearch(db='nuccore', term='183844[GPRJ]', retmax=1)
record = Entrez.read(handle)
id_list = record["IdList"]
search_results = Entrez.read(Entrez.epost("nuccore", id=",".join(id_list), restart=1, retmax=10000))
webenv = search_results["WebEnv"]
query_key = search_results["QueryKey"]
handle1 = Entrez.esummary(db="nuccore", query_key=query_key, WebEnv=webenv)
print(handle1.read())
这给出了:
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE eSummaryResult PUBLIC "-//NLM//DTD esummary v1 20041029//EN" "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20041029/esummary-v1.dtd">
<eSummaryResult>
<DocSum>
<Id>1102582672</Id>
<Item Name="Caption" Type="String">MEKF00000000</Item>
<Item Name="Title" Type="String">Salmonella enterica subsp. enterica serovar Sandiego strain CFSAN039537, whole genome shotgun sequencing project</Item>
<Item Name="Extra" Type="String">gi|1102582672|gb|MEKF00000000.1|MEKF01000000[1102582672]</Item>
<Item Name="Gi" Type="Integer">1102582672</Item>
<Item Name="CreateDate" Type="String">2016/11/14</Item>
<Item Name="UpdateDate" Type="String">2017/07/11</Item>
<Item Name="Flags" Type="Integer">0</Item>
<Item Name="TaxId" Type="Integer">0</Item>
<Item Name="Length" Type="Integer">93</Item>
<Item Name="Status" Type="String">live</Item>
<Item Name="ReplacedBy" Type="String"></Item>
<Item Name="Comment" Type="String"><![CDATA[ ]]></Item>
<Item Name="AccessionVersion" Type="String">MEKF00000000.1</Item>
</DocSum>
</eSummaryResult>
即。完全相同的字段Biopython的Entrez解析器给你作为键(加上Id
和Item
空列表,这让我困惑于上面。
你确定你喜欢这样比较吗?
你能给出R解决方案有额外数据的特定示例登录吗?