使用EUtilsGet()查询带有巨大字符串的PubMed

时间:2018-07-04 10:01:17

标签: r text text-mining

我的目标是从数千篇PubMed文章的摘要中获取所有文本。 我有一个Pubmed ID的列表(数千个)。

问题:对于100篇文章,R中的以下代码很好用,但是如果我将NoArticles增加到1000,那么我的代码将不再起作用。

rm(list=ls())
NoArticles = 100 #Number of articles

set.seed(123)
uidAllArticles <- sample(2000000:300000, NoArticles, replace=F) #create random dataset of articles id's.
search_topic = paste(uidAllArticles,collapse = "[uid]|") #create large query

library(RISmed)
search_query <- EUtilsSummary(search_topic) 
summary(search_query)
QueryId(search_query)

records<- EUtilsGet(search_query)
class(records)

pubmed_data <- data.frame('doc_id'=PMID(records),'Title'=ArticleTitle(records),'text'=AbstractText(records))

问题可能是通过单独添加每个pubmedID,查询的大小变得非常大。

有人对如何使用带有极大查询的EUtillsSummary()函数有想法吗?还是一些好的解决方法?

亲切的问候, 大安

0 个答案:

没有答案