为什么R会话在包含13 K pdf文件的for循环中中止?

时间:2019-06-15 10:17:24

标签: r resources abort termination

我正在为13 K pdf文件做循环,它在其中读取,预处理文本,查找相似之处并以txt形式写入。但是,当我在760个pdf文件后运行for循环时,R会话中止。可能是什么原因?

  1. 我试图编写最少的代码来重现该错误。但是我收到同样的问题。
  2. 我尝试增加memory_limit(),这也不是问题。
  3. 我尝试删除文件夹中的隐藏文件,例如Thumbs.db,但是再次出现相同的问题。
  4. 我试图将13 K pdf文件划分为4个文件夹,每个文件夹(3,3K),并且收到相同的错误消息Error in file(file, ifelse(append, "a", "w")) : can not open the connection. In addition: There are 50 warnings() and R session aborted.
  5. 当我运行pdf_folder [759:762]时,它读起来很正常,没有中断。

folder_path <- "C: ...."
## get vector with all pdf names
pdf_folder <- list.files(folder.path)

## for loop over all pdf documents
for(s in 1:length(pdf_folder)){
 # for(s in 1:2){
 tryCatch({


   ## choose one pdf document from vector of strings
   pdf_document_name <- pdf_folder[s]

   ## read pdf_document pdf into data.frame
   pdf <- read_pdf(paste0(folder_path,"/",pdf_document_name))

   print(s)

   rm(pdf)

 ## first end trycatch block
}, error = function(e){print(paste("Error: PDF Document not used: ",pdf_document_name, sep =""))}
 ) ## end of trycatch

} ## end of for loop

# Error: 

Error in file(file, ifelse(append, "a", "w")) : can not open the connection. In addition: There are 50 warnings()

预期结果是读取,预处理folder.path中的所有pdf文档。

0 个答案:

没有答案