我的目标是从数千篇PubMed文章的摘要中获取所有文本。 我有一个Pubmed ID的列表(数千个)。
问题:对于100篇文章,R中的以下代码很好用,但是如果我将NoArticles增加到1000,那么我的代码将不再起作用。
rm(list=ls())
NoArticles = 100 #Number of articles
set.seed(123)
uidAllArticles <- sample(2000000:300000, NoArticles, replace=F) #create random dataset of articles id's.
search_topic = paste(uidAllArticles,collapse = "[uid]|") #create large query
library(RISmed)
search_query <- EUtilsSummary(search_topic)
summary(search_query)
QueryId(search_query)
records<- EUtilsGet(search_query)
class(records)
pubmed_data <- data.frame('doc_id'=PMID(records),'Title'=ArticleTitle(records),'text'=AbstractText(records))
问题可能是通过单独添加每个pubmedID,查询的大小变得非常大。
有人对如何使用带有极大查询的EUtillsSummary()函数有想法吗?还是一些好的解决方法?
亲切的问候, 大安