我正试图从NCBI或PubMed中获取与R语言相关或附加到数百个唯一DOI或PMID的数据文件名。例如。我的PMID:19122651,我想获取与其连接的三个GSE的名称,分别是:GSE12781,GSE12782和GSE12783。
我搜索了各种资源和程序包,但无济于事。
感谢您的协助。
答案 0 :(得分:4)
您可以使用rentrez软件包来完成此操作。
必需的功能是entrez_link。
示例:
library(rentrez)
results <- entrez_link(dbfrom = 'pubmed', id = 19122651, db = 'gds')
results$links$pubmed_gds
[1] "200012783" "200012782" "200012781"
3个结果是关联的GEO数据集记录的ID。您可以使用entrez_summary
将它们转换为GSE加入。
这里有些丑陋的sapply
可以作为功能的基础:
sapply(results$links$pubmed_gds, function (id) entrez_summary("gds", id)$accession,
USE.NAMES = FALSE)
[1] "GSE12783" "GSE12782" "GSE12781"
答案 1 :(得分:1)
您可以按照here所述通过rentrez
软件包查询NCBI。函数entrez_link()
应该能够找到交叉引用